【基本术语】
-
模型/学习器:泛指从数据中学得的结果;其实就是通过观察获得的“经验”,当遇到新事物,有一定的判断依据。
-
示例/样本:一个事物或对象的描述,例如“一个西瓜”,也就是一条数据
-
属性/特征:反映事物或对象在某方面的表现或性质的事项,例如一个西瓜的“色泽”、“敲声”
-
属性值:属性上的取值,例如“青绿”、“乌黑”
-
属性空间/样本空间/输入空间:我们把属性作为坐标轴,可以构建一个多维空间,每个西瓜都可以找到自己的坐标位置;同时,每一个西瓜对应一个坐标向量,因此,一个示例/样本,也称为特征向量。
-
学习/训练:从数据中学得模型的过程
-
训练数据:训练过程中使用的数据
-
训练样本/训练示例/训练例:训练数据中的每个样本
-
训练集:训练样本组成的集合
-
标记(label):关于示例“结果”的信息,例如一个瓜到底是不是好瓜
-
标记空间/输出空间:所有标记的集合
-
样例:拥有标记信息的示例,即拥有明确结果的信息,知道瓜是好瓜还是坏瓜
-
分类:预测离散值
-
回归:预测连续值
-
二分类:一个为正类,另一个为反类
-
多分类:涉及多个类别的结果
-
测试:根据模型进行预测的过程
-
测试样本:被预测的样本
-
聚类:将训练集中的样本分成若干组,每个组称为一个簇
-
监督学习(supervised learning):训练数据有标记信息
-
无监督学习(unsupervised learning):训练数据没有标记信息
-
泛化:模型适用于新样本的能力
【经验误差与过拟合】
-
训练误差/经验误差:学习器在训练集上的误差
-
泛化误差:学习器在新样本上的误差
-
过拟合:学习器把训练样本学得太好了,导致把训练集的一些特点当成所有潜在样本都会有的一般性质,导致泛化性能下降
-
欠拟合:对训练样本的一般性质
【评估方法】
-
留出法:直接把数据集D划分成两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计
-
交叉验证法:将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性;然后,每次用k-1个子集的并集作为训练集,余下的子集为测试集,获得k组训练/测试集,从而进行k次训练和测试,最终返回这k个测试结果的均值。
-
自助法:以自助采样法为基础,给定包含m个样本的数据集D,对它进行采样产生数据集D’,每次随机从D中挑选一个样本到D’中(有放回),这个过程执行m次后,得到包含m个样本的数据集D’。
【性能度量】
-
均方误差:预测值和真实值的误差平方和
-
错误率:分类错误的样本数占样本总数的比重
-
精度:分类正确的样本数占样本总数的比重
-
查准率:预测为正的里面,有多少真的是正的
-
查全率:真的为正的里,有多少被预测为正
-
F1:综合考虑查准率、查全率