这篇文章算是对之前通过看视频学到的一些知识的总结,包括:简单线性回归中拟合直线的两个参数
的推导(最小二乘法)
简单线性回归中对
意义的一点个人理解
从
推导
尽管我也很想整一个太长不看版……然鹅
简单线性回归中拟合直线的两个参数
的推导
现在我们有一组数据点,比如说x代表体重,y代表腹围,那么y和x之间的关系可以用下面的式子表示
实际上我们不可能知道beta0,beta1和u,但是我们可以使用手上有限的数据推测出下面的线性方程
(1)
于是真实值y和使用拟合直线预测出来的
之间就会有偏差,用
表示这个偏差。
由于反复打\hat实在是很麻烦的一件事情,况且真实的beta0,beta1和u在下面的推导里都用不上,所以接下来
都不会加hat,这里先提前说明一下
其实简单线性回归说白了就是根据手上的数据点想办法优化拟合直线的两个参数,让预测值
和真实值y之间的偏差尽可能的小。也就是让u(如上所述,为了省事这里不加hat了)的总和尽可能的小。问题是如果直接把u相加,有些u可能为正,有些u可能为负,而且举一个极端的例子,令
作为拟合直线,这个时候的拟合水平相当于是最差的(在所有经过
的直线中),但是根据平均值的性质,一组数据各项减去平均值差的和等于0. 为了避免这个尴尬的局面,仿照方差的定义,我们把各个u都作一个平方,然后把平方求和:
(2)
所以接下来需要做的就是求(2)式的极值。这个式子是一个二次方程,只有一个极小值,位于导数等于0的地方。于是(2)求最小值的问题可以通过对beta0和beta1分别求一阶导数,令一阶导数为0就可以求出符合要求的两个参数了。
先看beta0
符合极值要求的方程如下: