1.1基本术语
- 要进行机器学习,先要有数据。书中就以一批关于西瓜的数据为例,eg:(色泽=浅白;根蒂=硬挺;敲声=清脆),.......每对括号内是一条记录,”=”意思是“取值为”。这组记录的集合称之为一个“数据集”,(有时数据集也称之为“样本”)其中每一条记录是关于一个事件或对象(这里是一个西瓜)的描述,称之为是一个“示例”或“样本”。反应事件或对象在某方面的表现或性质的事项,“色泽”“根蒂”“敲声”称为“属性”或“特征”,属性上的取值称为“属性值”,属性张成的空间称为“属性空间”,“样本空间”,“输入空间”。例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都能在这个空间中找到自己的位置,由于空间中的每个点对应一个坐标向量,因此也把一个示例称之为“特征向量”。
- 一般地,令D={x1,x2,x3.........,xm}表示包含m个示例的数据集,每个示例由d个属性描述(例如上面的西瓜数据使用了3个属性),d称之为样本xi的维数(xi是d维样本空间X的一个向量)
- 从数据中得到的模型的过程称之为“学习”或“训练”,这个过程依靠执行某个学习算法实现。训练过程中使用的数据称为“训练数据”,其中每个样本称为“训练样本”,训练样本组成的集合称为“训练集”。学得模型对应了关于数据的某种潜在的规律,因此亦成“假设”。