- 最小二乘法在统计学的线性回归分析中是使用最广和最常见的方法。本博文主要讲最小二乘法在一元线性回归中的推算过程,当然多元线性回归的推算过程与一元线性回归是类似的。
- 首先,讲一下什么是回归分析:回归分析是对具有因果关系的变量(因变量、自变量)进行数理统计分析。当自变量与因变量确实存在某种关系时,我们所建立的回归方程才有意义。因此,自变量的因素对因变量的预测值是否有关?相关程度如何,以及判断这种相关程度的把握性多大,就成为回归分析中必须要解决的问题。
- 进行相关程度分析时,一般要求出相关关系,以相关系数的大小(皮尔逊系数R,范围在【-1,1】)来判断自变量和因变量的相关的程度。
-
在上面讲的回归分析中有一个重要的步骤就是建立回归方程,既然是回归方程,那么必然会有截距项b和回归系数a(指一元线性回归:Y=aX + b)决定,换句话来说,只要我们把a、b求出来,这个回归方程就可以写得出来。那么如何来求a和b?用什么方法来求?所用的方法需要达到什么样的条件才使建立的回归方程更好的描述这两个变量的关系?
-
所有的方法就是最小二乘法,先来看定义:最小二乘法(又称最小平方法)是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
-
如下图所示,点代表真实值