stanford机器学习公开课视频,讲师 Andrew Ng:http://v.163.com/special/opencourse/machinelearning.html
一、欠拟合和过拟合的概念
1、欠拟合:指训练样本拟合不充分,不能很好的捕捉隐藏在数据中的信息,得到的变量关系无法很好的表征输入输出之间的内在关联。
2、过拟合:指由于对训练样本的过分运用,捕捉到的变量关系虽然能够很好的拟合出训练样本的输入输出关系,但是在测试样本中的误差反而很大。这是由于训练时过分运用了训练样本,使训练结果过分依赖于训练样本,无法泛华到其他数据。对于过拟合,直观的可以从以下两点理解:1)简单理解就是训练样本的得到的输出和期望输出基本一致,但是测试样本输出和测试样本的期望输出相差却很大 。2)为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器,这个分类器能够百分之百的正确分类样本数据(即再拿样本中的文档来给它,它绝对不会分错),但也就为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别!
二、参数学习算法和非参数学习算法
1、参数学习算法(Parametric learning algorithm):具有固定的训练参数集,在训练过程中对训练集合的依赖是不变的。
2、非参数学习算法(NonParametric learning algorithm): 算法需要的东西随着训练集合不断增长,算法的维持是基于整个训练集合的。
三、局部加权回归(Locally weighted regression)
局部加权回归属于非参数学习算法,根据样本数据与预测点的距离来决定训练数据的权重,距离预测点近的样本数据赋予更大的权重,而距离较远的样本点则权重基本趋近于零。
对于线性回归:
For LR
To evaluate h at a certain x
Fit W to minimize
Return WX;
对于局部加权回归:
For LWR:
To evaluate h at a certain x
Fit W to minimize
Where
IF |xi -x| small, then W(i)~1;
IF |xi -x| large, then W(i)~0;