线性回归中的平方误差
假设坐标平面内有n点,想找到一条直线,最小化这些点到该直线的平方误差。我们需要求出m和b的值。
定义下误差的概念
e1=y1−(mx1+b)
.
.
en=yn−(mxn+b)
平方误差
SE=e21+...+e2n
线性回归公式的推导
SE=e21+...+e2n
=(y1−(mx1+b))2+...+(yn−(mxn+b))2
=y21−2y1(mx1+b)+(mx1+b)2
+…+
=y21−2y1mx1−2y1b+m2x21+2mx1b+b2
+…+
y2n−2ynmxn−2ynb+m2x2n+2mxnb+b2
(对应项相加)
=(y21+...+y2n)−2m(x1y1+...+xnyn)−2b(y1+...+yn)+m2(x21+...+x2n)+2mb(x1+...+xn)+nb2
令y的平方的均值 y21+...+y2nn=y2¯,y21+...+y2n=ny2¯ 。其它也类似处理。
SE=ny2¯−2mnxy¯−2bny¯+m2nx2¯+2mbnx¯+nb2
最小化SE,得到m和b的值。
首先对m求偏导,令
∂SE∂m=0
∂SE∂m=−2nxy¯+2mnx2¯+2bnx¯=0
(提出2n)
对b求偏导,令
∂SE∂b=0
∂SE∂b=−2ny¯+2mnx¯+2nb=0
(提出2n)
{−xy¯+mx2¯+bx¯=0−y¯+mx¯+b=0
下面将两者都化成mx+b形式,
{mx2¯+bx¯=xy¯mx¯+b=y¯
满足这两个方程的m和b就是最佳拟合直线的m和b。从第二个方程可以看出点 (x¯,y¯) 落在直线上。改写第一个方程, mx2¯x¯+b=xy¯x¯ ,得到拟合直线上的另一个点 (x2¯x¯,xy¯x¯) 。
我们可以解方程组以得到m和b,也可以通过直线上的两个点求出直线y=mx+b。
{mx2¯x¯+b=xy¯x¯mx¯+b=y¯
得到m=
y¯−xy¯x¯x¯−x2¯x¯=x¯y¯−xy¯(x¯)2−x2¯
,b=
y¯−mx¯
线性回归例题
假设有不共线三点(1,2)(2,1)(4,3),求最佳拟合直线。
x¯
=(1+2+4)/3=7/3,
y¯
=(2+1+3)/3=2,
xy¯
=(2+2+12)/3=16/3,
x2¯
=(1+4+16)/3=7。
m=
7/3∗2−16/3(7/3)2−7
=3/7,b=
y¯−mx¯
=2-3/7*7/3=1
回归直线是y=mx+b=3/7x+1
决定系数R2
一种对直线拟合程度的估计,表示y的波动程度有多少百分比能被x的波动程度所描述。
y的总波动程度为
(y1−y¯)2+(y2−y¯)2+...+(yn−y¯)2=SEy¯
,又称为离y均值的平方误差。方差是y的总波动的均值。
每个点到回归直线的平方误差为
SE=(y1−(mx1+b))2+...+(yn−(mxn+b))2
。
SESEy¯
表示y的总波动中有多少没被回归线所描述,或者说没有被x的波动所描述。
1−SESEy¯
表示y的波动程度有多少百分比能被x的波动程度所描述,称作决定系数
r2
。
如果直线的平方误差SE很小,意味着直线拟合的很好,
r2
会接近1,也就是说y的波动很多都被x的波动描述了。
从下图可以看出,比起y的均值线(绿色),每个点和回归线(紫色)接近的更好。
SEy¯
理解为每个y到绿线的距离平方和,
SE
理解为每个y到紫线的距离平方和。
协方差和回归线
两个随机变量之间的协方差为
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
,两个随机变量离各自均值距离之积的期望值,也就是表示两变量多大程度上一同变化。
比如,从X和Y中抽取一个样本后,X高于其期望值,Y低于其期望值,(X-E(X))(Y-E(Y))会得到负数。如果
Cov(X,Y)
为负,说明两变量一个上升,另一个就下降。如果两者同时上升或者同时下降,那么就是正协方差,同步的程度确定协方差的大小。
将协方差的定义,同最小二乘回归联系起来。协方差这个概念很大程度就是从回归中来的。
Cov(X,Y)
=E[(X-E(X))(Y-E(Y))]
=E[XY-XE(Y)-E(X)Y+E(X)E(Y)]
=E(XY)-E[XE(Y)]-E[E(X)Y]+E(X)E(Y)
=E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y)
=E(XY)-E(X)E(Y)
期望值可以看作已知的常数,期望值的期望就是该期望值,即E(E(X))=E(X)。
如果知道这些变量的概率分布或者密度函数,我们就能算出期望值来。但是如果只有样本,则只能用样本估计。E(XY)
≈xy¯
,E(X)
≈x¯
,E(Y)
≈y¯
。
Cov(X,Y)=xy¯−x¯y¯
。这是回归直线的斜率m的分子部分。
m=
xy¯−x¯y¯x2¯−(x¯)2
。而分母部分是
Cov(X,X)
。
Cov(X,X)
=E[(X-E(X))(X-E(X))]=
Var(X)
,随机变量同自身的协方差等于该随机变量的方差。
因此,回归直线的斜率可以考虑为m= Cov(X,Y)Var(X)