绪论
一、机器学习定义
机器学习是致力于通过计算的手段,利用数据来改善系统自身性能的学科。
二、机器学习术语
示例/样本:反映事件或对象在某方面的表现或性质的事项称为“属性”或“特征”
数据集:对单个样本特征进行描述的记录集合。
训练: 从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。
训练数据: 训练过程中使用的数据。
训练样本 训练数据中的每一个样本称为训练样本。
训练集: 训练样本组成的集合。
第二章
一、误差
误差:学习器的实际预测输出与样本的真实输出之间的差异称为 “误差” (error)
训练误差:学习器在训练集上的误差称为“训练误差”(training error)或 “经验误差”
泛化误差:在新样本上的误差称为“泛化误差”
二、评估方法
留出法:将数据集按一定比例划分为训练集和测试集。
交叉验证法:例如分成1、2、3、4四部分,我们可以先以1、2、3为训练集,以4为测试集;然后以1、2、4为训练集,以3为测试集…
自助法:以自主采用法为基础,适用于数据集较小、难以有效划分训练/测试集时。