各类数据源于周志华教授的《机器学习》,阅读时囫囵吞枣,记录在此只为帮助理解,具体请自行查看。
例子:西瓜的数据三组
a、色泽=青绿;瓜蒂=蜷缩;敲声=浊响
b、色泽=乌黑;瓜蒂=微蜷;敲声=沉闷
c、色泽=浅白;瓜蒂=硬挺;敲声=清脆
1 基本术语
1.1 数据集
例子中每一组都是一条记录,而这三组数据的集合称为一个“数据集”。
1.2 示例(instance)/样本(sample)
其中每条记录都是关于一个事件或对象(例子中的西瓜)的描述,称为一个“示例”或”样本“。
注:有时候整个数据集也可以称作一个“样本”,因为它可以看作对“样本空间”的一个采样。
1.3 属性(attribute)/特征(feature)
反映事件或对象在某方面的表现或性质的事项(例子中的“色泽”、“瓜蒂”和“敲声”)称为“属性”或“特征”。
1.4 属性值(attribute value)
属性上的取值称为“属性值”
1.5 属性空间(attribute space)/样本空间(sample space)/输入空间
属性张成的空间称为“属性空间”、”样本空间“或"输入空间“(例如将“色泽”、“瓜蒂”和“敲声”作为三个坐标轴张成的描述西瓜的三维空间)
1.6 特征向量(feature vector)
在“属性空间”中每个西瓜都能在其中找到自己的坐标,因此我们把一个”示例“也叫做”特征向量“。
1.7 维数(dimensionality)
一般令表示包含m个“示例”的“数据集”,每个”示例“由d个”属性“描述(例子中的西瓜使用了3个”属性“),则是d维”样本空间“X中的一个向量,其中是在第j个”属性“上的取值(例子中第三个西瓜在第二个“属性”上的值是”硬挺“),d则称为样本的”维数“。
1.8 学习(learning)/训练(training)
从数据在学得模型的过程称为”学习或”训练“,这个过程通过执行某个学习算法来完成。
1.9 训练数据(training data)
训练过程中使用的数据称为“训练数据”。
1.10 训练样本(training sample)
其中每一个样本称为一个“训练样本”。
注:训练样本也称为“训练示例”(training instance)或“训练例”。
1.11 训练集(training set)
“训练样本”组成的集合。
1.12 假设(hypothesis)
学得模型对应了关于数据的某种潜在规律称为“假设”。
1.13 真相/真实(ground-truth)
潜在规律本身就称为“真相”或“真实”。
注:学习算法通常有参数需设置,使用不同参数值和训练数据,将产生不同的结果