过拟合(
overfit
)与欠拟合(
underfit
)
过拟合:
1
)简单理解就是训练样本的得到的输出和期望输出基本一致,但是测试样本
输出和测试样本的期望输出相差却很大。
2
)为了得到一致假设而使假设变得过度复杂称为
过拟合。
想像某种学习算法产生了一个过拟合的分类器,
这个分类器能够百分之百的正确分
类样本数据
(即再拿样本中的文档来给它,它绝对不会分错)
,但也就为了能够对样本完全
正确的分类,
使得它的构造如此精细复杂,
规则如此严格,
以至于任何与样本数据稍有不同
的文档它全都认为不属于这个类别!
标准定义:给定一个假设空间
H
,一个假设
h
属于
H
,如果存在其他的假设
h’
属于
H,
使得在训练样例上
h
的错误率比
h’
小,但在整个实例分布上
h’
比
h
的错误率小,那么就说
假设
h
过度拟合训练数据。
----
《
Machine Learning
》
Tom M.Mitchell
---------------------------------------------------------------------------------------------------------------
-----------------
如果数据本身呈现二次型,故用一条二次曲线拟合会更好。但普通的
PLS
程序只提供
线性方程供拟合之用。这就产生拟合不足即
“
欠拟合
”
现象,从而在预报时要造成偏差。如果
我们用人工神经网络拟合,则因为三层人工神经网络拟合能力极强,有能力拟合任何函数。
如果拟合彻底,就会连实验数据点分布不均匀,实验数据的误差等等
“
噪声
”
都按最小二乘判
据拟合进数学模型。这当然也会造成预报的偏差。这就是
“
过拟合
”
的一个实例了。