已经很久没有写博客了,今天决定写一篇关于最小二乘的博客,发表下自己的理解,有不足或错误之处,欢迎大家指正。
最小二乘,又被叫做最小乘方or最小平方,它是一种优化技术。当给你一堆数据点,你可以想象成初中数学课堂上学习解析几何的时候,在坐标轴上给出一些点(通常这些点连起来是一条直线),然后要求算出这条直线的解析式(也就是拟合这些数据点),或计算斜率(可以理解成回归系数),然后要你算出当x等于多少时y的值之类的。我们在利用坐标轴上的点进行计算解析式的时候,其实就是找到最佳斜率(回归系数)来对这些数据点进行拟合了。
现在回到最小二乘上来,最小二乘,就是用来找到最佳的回归系数的方法。在过去的30年中,线性模型一直是统计学的主要支柱,并且现在仍然是最重要的工具之一。给定一个输入向量 X=(X 1 ,X 2 ,⋯,X p ) ,可以通过下面的模型来预测输出 Y :
Y ^ =X T β ^
可以发现,上面的公式中
Y
和现在我们需要找到这样的最佳
β
来对
Y
进行预测,我们要找到使误差和,也就是
RSS(β)=∑ i=1 N (y i −x T i β) 2
很容易发现这是一个关于
β
的二次函数,所以极小值总是存在,但可能不唯一,我们把上式写成矩阵的形式:
RSS(β)=(y−Xβ) T (y−Xβ)
现在来回顾下高中的知识,当要求二次函数的极值时,我们的做法通常是对其求导,令其等于0(因为导数为0的点,其切线的斜率为0,而这样的点就是极值点),这样就能求的极值点,现在我们对上式中的
β
求微分(用用高等数学术语吧:)), 因为我们要求的最小的
β
来最小化误差,这样我们得到了标准方程:
X T (y−Xβ)=0
如果
X T X
是非奇异的,也就是它们是满秩矩阵,其行列式不等于0(参考大学课程线性代数)。那么我们可以得到
β
的一个最佳估计:
β ^ =(X T X) −1 y
这样,我们就计算出了回归系数(可以理解为一次函数的斜率)了, 有了回归系数,我们就确定了预测
Y
的方程