在学习线性回归中,接触了到最小二乘法,知道怎么用它来解决回归问题,但其本质还没深入地理解,然后在项目中也听到了这个知识点,所以就有了这篇笔记。
最小二乘法的核心就是使得所有数据的偏差平方和最小。但是在数据拟合的时候,为什么是要使得用模型预测出来的值和真实值之差的平方和最小?
这个问题见链接(http://blog.sciencenet.cn/blog-430956-621997.html)。里面的假设是:所有偏离f(x)的点都是有噪音的。一个点偏离越远说明噪音越大,这个点出现的概率也越小。那么偏离程度x与出现概率f(x)满足什么关系呢?——正态分布。
已知N个点(用D来表示),求直线(用h来表示)出现的概率就可以表示为:P(h|D).(P(h|D)表示在D的情况下,h发生的概率)。
根据贝叶斯定理:P(h|D)=P(D|h)*P(h)/P(D)。这就是一个生成模型了——由直线h生成点集D。
我们再作一个假设:h生成D中的每一个点都是独立的(如果了解贝叶斯文本分类的话,这里就很好理解了),那么P(D|h)=p(d1|h)*p(d2|h)…
结合前面正态分布,我们可以写出这样的式子:p(di|h)相当于EXP(-(ΔYi)^2)
那么P(D|h)∝EXP[-(ΔY1)^2]* EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * ..
所以可以得出:p(D|h)=EXP(-((ΔY1)^2+(ΔY2)^2+~~~+(ΔYn)^2),故最小二乘法是求差值的平方和最小。
原文来自:http://sbp810050504.blog.51cto.com/2799422/1269572