1.什么是线性回归?
早在初中我们就学习过一次函数 ,它的一般形式我们应该还记得吧,就像是这样。这个一次函数实际上,就是一元一次函数。那时候学到的求解这个函数解析式的方法就是待定系数法 ,来确定其中k和b的值。而线性回归这个词在统计学习中,同样是确定一个一次函数解析式中的位置参数,在图像上来看就相当于,你想找一条直线,让他们尽量穿过已知(一般都是大量的)的数据点,或者让他们到直线距离之和最短。但是这里用的不是待定系数法,下面介绍原因。
现实世界中的数据总是存在各种误差,比如测量工具的误差,人度数的误差等等。而且数据的产生也大部分是一个随机的过程。所以如果现实世界中存在某些线性关系,那么这个关系也一定是近似的。所以其一次函数其实是这样的:
其中是数据偏离线性的误差,这个误差是服从正态分布的。什么!你还不知道什么是正态分布?那请先学习下相关知识。就是因为这个
的存在,所以对于每一组数据
,他们的误差都是不同的,所以在前面那个式子中,我们不能使用待定系数法求得尽量精确的解。所以就需要一个更高端的做法。
先不考虑怎么做的话,我们既然知道有这个误差存在了,那么我们就应该让这个误差尽量减小,数据已经是确定好了的,我们只能在计算方法上做文章。这里移项可以得到误差的方程:
所以现在我们就应该想方法,利用已知的来找的合适的
使
的和对于所有的已知点最小,这就是线性回归的思路。下面介绍具体方法。
2.线性回归的方法
为了求解出最小的,我们可以其实可以利用平方消去其中的绝对值符号,得到了我们的要求的式子: