1. 误差:在机器学习中算法的预测输出与实际输出之间的差异,包含经验误差和泛化误差。
2. 经验误差:学习算法在训练集上的误差,也称为训练误差。
3. 泛化误差:学习算法在新样本集上的误差,优秀的学习算法都具有泛化误差较小的特点。泛化误差一定程度上可以被拆解为偏差、方差、噪声之和。偏差表示算法本身的拟合能力。方差表示数据扰动的影响。噪声表示误差的下限,即问题本身的难度。
4. 过拟合:学习算法的能力过于强大,不但学会了样本的“普遍特征”,也学会了样本的自身特性。过拟合无法避免,只能缓解。
5. 欠拟合:含义与过拟合相反,易通过增强算法来克服。
6. 训练集、测试集、验证集之间的关系:训练集和验证集可以统称为训练数据,验证集是在训练阶段完成模型选择和调参任务的。测试集主要模仿模型在实际中的数据,用于测试模型的泛化能力。
7. 划分训练集与测试集的主流方法
(1)留出法:直接将数据集随机划分为两个互斥的集合,同时保证数据分布的一致性,避免由于数据分布而产生的偏差。
(2)交叉验证法:又称k-折交叉验证,将数据集随机划分为k个集合(例如划分p次),每次选取其中一个集合作为测试集,其余集合作为训练集合,则一共了进行次实验,再取平均值。特别的,当k等于数据中包含的样本数时,称为留1法,评估结果较为准确但是计算开销随数据量变化明显。