1、什么是过拟合
为了使训练数据与训练标签一致,而对模型过度训练,从而使得模型出现过拟合(over-fitting)现象。具体表现为,训练后的模型在训练集中正确率很高,但是在测试集中的变现与训练集相差悬殊,也可以叫做模型的泛化能力差。下图展示了分类模型中过拟合的现象。
(a) (b) (c)
红色×为已知的训练数据(横坐标看做样本维度,纵坐标看做样本标签),蓝色线表示拟合的曲线。尽管更高阶的函数能够更好地描述当前的训练数据,但是当同分布的数据增加时,很有可能不会落到图1(c)的高阶函数曲线上。
2、过拟合出现的原因
(1)建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;
(2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;
(3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立;
(4)参数太多&#x