一、机器学习算法术语
1)数据集(Data Set),训练集(Training Set),验证集(Validation Set)和测试集(Test Set)
数据集分为训练数据和测试数据。测试数据集合即为测试集,是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集,训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。
2)实例(instance),属性(Attribute),特征(Feature),特征值(Feature Value)和特征向量(Feature vector)
实例是一个完整的训练或测试数据,如一张图片、一段文本句子、一条音频等。实例有一般多个属性,因此用多维的向量来表示它,并用粗体的小写字母来标记,如x_i,下标i表示实例的序号。
传统机器学习算法一般不直接对实例的属性进行处理,而是对从属性中提炼出来的特征进行处理。实例通常是由多个特征值组成的特征向量来表示。用特征向量来表示实例时,也用x_i表示。用带括号的上标来区分实例的不同特征,如x_i^(j)表示第i个实例的第j维特征。有m个特征的第i个实例可表示为x_i={x_i^(1),x_i^(2),…,x_i^(m)}。
3)标签(Label)和样本(Sample)
在监督学习中,训练数据不仅包括实例,还包括事先标记好的标签。在分类、聚类和标注模型中,标签是离散编号值,在回归模型中,标签是连续值。对训练数据来说,标签是指导训练的结论,对测试集来说,标签是要预测的目标。
在分类、聚类和回归任务中,标签值一般是一维的标量,一般用y_i表示。在标注任务中,标签值是一个序列,可看成是向量,一般用粗体y_i表示。测试集中的数据只包括实例,标签是需要预测的,在分类、聚类和回归任务中用y ̂_i来表示待预测的标签值,在标注任务中用粗体y ̂_i来表示待预测的标签序列。
样本是一份可用来训练的完整数据。在监督学习中,样本由实例及其标签组成,