什么是简单线性回归
用统计的方法来得到连续自变量x和因变量y之间的线性关系。和一般线性回归的区别在于只有一个自变量。
华氏温度和摄氏温度之间的关系:
Fahr=95Cels+32
这是一个确定的线性关系,不是我们需要解决的问题。
相对的,我们要解决的问题是关于非确定的,如下所示,因变量y是一千万人中因皮肤癌致死的人数,自变量x是美国49个州的纬度。
从上图中可以看到纬度越高,越往北,由于皮肤癌致死的越少。上图支持了该种假说。纬度和皮肤癌致死人数成反比,但是这种关系不怎么好,看着不像一个线性的。图中的散点表明了一种趋势,也有离散的。因此这不是确定的关系,而是统计上的关系。
还有一些其他的统计上的关系,例如:
- 身高和体重。身高增加体重也会增加,但不是一个确定的线性关系
- 喝了多少酒和血液里的酒精浓度
- …
衡量拟合的好坏程度63280550
对于上图总结的自变量身高和因变量体重之间的线性关系,哪条总结的比较好?
可以用如下方程来表示一条直线:
y^i=b0+b1xi
其中,图中的一点代表一个样本( xi , yi ),即一个学生的身高和体重, xi 表示第i个样本的特征值(自变量), yi 表示第i个样本的实际值(因变量), y^i 表示第i个样本的预测值。
一个点的误差:
ei=yi−y^i
衡量一条直线总结其中关系的好坏,需要综合所有的样本点,所以使用均方误差来综合一条直线的误差。然后就可以使用最小二乘方法来找到能使该误差最小的参数 b0,b1 ,从而确定这条最好的直线。
Q=∑i=1n(yi−y^i)2
最小二乘方法求解直线方程的参数
求解能使误差Q最小的参数 b0,b1 ,即求解如下的规划模型:
minQ=∑i=1n(yi−(b0+b1xi))2
通过Q对 b0,b1 求导置为0,即求解极值
⎧⎩⎨∂Q∂b0=0∂Q