模型过拟合
如上图所示拟合曲线
(1)图一的拟合较为简单,不能很好的反应出变化关系 ,欠拟合
(2)图二的拟合较好,可以很好的表达变化关系
(3)图三的拟合较为复杂,常用不能很好的预测以后的变化趋势),为过拟合情况
产生过拟合的原因:
- 观察值与真实值存在偏差
训练样本的获取,本身就是一种抽样。抽样操作就会存在误差, 也就是你的训练样本 取值 X, X = x(真值) + u(随机误差),机器学习的 优化函数 多为 min Cost函数,自然就是尽可能的拟合 X,而不是真实的x,所以 就称为过拟合了,实际上是学习到了真实规律以外的 随机误差。举个例子说,你想做人脸识别,人脸里有背景吧,要是你这批人脸背景A都相似,学出来的模型,见到背景A,就会认为是人脸。这个背景A就是你样本引入的误差。 - 数据太少,导致无法描述问题的真实分布
举个例子,投硬币问题 是一个 二项分布,但是如果 你碰巧投了10次,都是正面。那么你根据这个数据学习,是无法揭示这个规律的,根据统计学的大数定律(通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率),当样本多了,这个真实规