1. 过拟合和欠拟合
过拟合指训练后的模型在训练集上loss非常低,perform well但是在测试集上perform bad,可以理解为模型对训练集学得“太好了”以至于不能很好地泛化到测试集上了。
欠拟合是指模型对训练集学习不充分,没有学到全部的先验知识,这种情况数据集对训练集和测试集都会表现不佳。
2. 泛化误差、偏差、方差
泛化误差
当模型在上不能很好的泛化到测试集上时,我们称模型的泛化误差较大。降低模型的复杂度一定程度上可以减小泛化误差。
偏差
偏差指每次采样m个数据训练模型得到的输出的平均相对于真实模型输出的偏差。由学习算法做出了错误的假设导致
方差
方差指每次采样m个数据训练模型得到的输出的方差。由模型复杂度相对于训练样本数过高导致。
3. 模型评估
主要方式是交叉检验
4. 集成学习
主要算法分为boosting 和bagging。
Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。 Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林(Random Forest)。