1.1 引言
在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机从数据中产生“模型”得算法,即“学习算法”,有了学习算法,我们将经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。
1.2 基本术语
①数据集
②示例(特征向量)
③属性或特征
④属性值
⑤属性空间、样本空间、输入空间
⑥
⑦训练数据、训练样本、训练集
⑧标记、样例
⑨分类:预测离散值
回归:预测连续值
⑩根据训练数据是否拥有标记,学习任务可以大致划分为两大类:
监督学习:分类、回归
无监督学习:聚类
2.1 经验误差与过拟合
错误率(error rate):如果在m个样本中有a个分类错误,则错误率E=a/m
精度:精度=1-错误率(1-a/m)
误差:学习器的实际预测输出与样本的真实输出之间的差异
训练误差(经验误差):学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
过拟合(overfitting):学习器把训练样本学的太好了的时候,很可能已将把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质,这样就会导致泛化性能下降
欠拟合(underfitting):这是指对训练样本的一般性质尚未学好
2.2 评估方法
通常对数据集D进行适当处理,从中产生训练集S和测试集T,通常有以下几种方式:
①留出法(hold-out):将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T
即在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的评估
②交叉验证法(cross validation):将数据集D划分为k个大小相似的互斥子集,即
每个子集Di都尽可能保持数据分布一致性,即从D中通过分层采样得到。然后每次用k-1个子集的并集作为训练集,余下的子集作为测试集。这样就可以获得k组训练/测试集,从而可进行k次训练和测试,最终个返回k个测试结果的均值。
以上内容均出自习西瓜书。