统计学8

线性回归中的平方误差
假设坐标平面内有n点,想找到一条直线,最小化这些点到该直线的平方误差。我们需要求出m和b的值。
这里写图片描述
定义下误差的概念
这里写图片描述
e1=y1(mx1+b)
.
.
en=yn(mxn+b)

平方误差
SE=e21+...+e2n

线性回归公式的推导
SE=e21+...+e2n
=(y1(mx1+b))2+...+(yn(mxn+b))2
=y212y1(mx1+b)+(mx1+b)2 +…+
=y212y1mx12y1b+m2x21+2mx1b+b2 +…+
  y2n2ynmxn2ynb+m2x2n+2mxnb+b2 (对应项相加)
=(y21+...+y2n)2m(x1y1+...+xnyn)2b(y1+...+yn)+m2(x21+...+x2n)+2mb(x1+...+xn)+nb2

令y的平方的均值 y21+...+y2nn=y2¯y21+...+y2n=ny2¯ 。其它也类似处理。

SE=ny2¯2mnxy¯2bny¯+m2nx2¯+2mbnx¯+nb2
最小化SE,得到m和b的值。
首先对m求偏导,令 SEm=0
SEm=2nxy¯+2mnx2¯+2bnx¯=0 (提出2n)
对b求偏导,令 SEb=0
SEb=2ny¯+2mnx¯+2nb=0 (提出2n)

{xy¯+mx2¯+bx¯=0y¯+mx¯+b=0

下面将两者都化成mx+b形式,
{mx2¯+bx¯=xy¯mx¯+b=y¯

满足这两个方程的m和b就是最佳拟合直线的m和b。从第二个方程可以看出点 (x¯,y¯) 落在直线上。改写第一个方程, mx2¯x¯+b=xy¯x¯ ,得到拟合直线上的另一个点 (x2¯x¯,xy¯x¯)

我们可以解方程组以得到m和b,也可以通过直线上的两个点求出直线y=mx+b。
{mx2¯x¯+b=xy¯x¯mx¯+b=y¯
得到m= y¯xy¯x¯x¯x2¯x¯=x¯y¯xy¯(x¯)2x2¯ ,b= y¯mx¯

线性回归例题
假设有不共线三点(1,2)(2,1)(4,3),求最佳拟合直线。
x¯ =(1+2+4)/3=7/3, y¯ =(2+1+3)/3=2, xy¯ =(2+2+12)/3=16/3, x2¯ =(1+4+16)/3=7。
m= 7/3216/3(7/3)27 =3/7,b= y¯mx¯ =2-3/7*7/3=1
回归直线是y=mx+b=3/7x+1

决定系数R2
一种对直线拟合程度的估计,表示y的波动程度有多少百分比能被x的波动程度所描述。

y的总波动程度为
(y1y¯)2+(y2y¯)2+...+(yny¯)2=SEy¯ ,又称为离y均值的平方误差。方差是y的总波动的均值。

每个点到回归直线的平方误差为
SE=(y1(mx1+b))2+...+(yn(mxn+b))2

SESEy¯ 表示y的总波动中有多少没被回归线所描述,或者说没有被x的波动所描述。
1SESEy¯ 表示y的波动程度有多少百分比能被x的波动程度所描述,称作决定系数 r2
如果直线的平方误差SE很小,意味着直线拟合的很好, r2 会接近1,也就是说y的波动很多都被x的波动描述了。

从下图可以看出,比起y的均值线(绿色),每个点和回归线(紫色)接近的更好。 SEy¯ 理解为每个y到绿线的距离平方和, SE 理解为每个y到紫线的距离平方和。
这里写图片描述

协方差和回归线
两个随机变量之间的协方差为
Cov(X,Y)=E[(XE(X))(YE(Y))] ,两个随机变量离各自均值距离之积的期望值,也就是表示两变量多大程度上一同变化。
比如,从X和Y中抽取一个样本后,X高于其期望值,Y低于其期望值,(X-E(X))(Y-E(Y))会得到负数。如果 Cov(X,Y) 为负,说明两变量一个上升,另一个就下降。如果两者同时上升或者同时下降,那么就是正协方差,同步的程度确定协方差的大小。

将协方差的定义,同最小二乘回归联系起来。协方差这个概念很大程度就是从回归中来的。
Cov(X,Y) =E[(X-E(X))(Y-E(Y))]
=E[XY-XE(Y)-E(X)Y+E(X)E(Y)]
=E(XY)-E[XE(Y)]-E[E(X)Y]+E(X)E(Y)
=E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y)
=E(XY)-E(X)E(Y)
期望值可以看作已知的常数,期望值的期望就是该期望值,即E(E(X))=E(X)。

如果知道这些变量的概率分布或者密度函数,我们就能算出期望值来。但是如果只有样本,则只能用样本估计。E(XY) xy¯ ,E(X) x¯ ,E(Y) y¯
Cov(X,Y)=xy¯x¯y¯ 。这是回归直线的斜率m的分子部分。
m= xy¯x¯y¯x2¯(x¯)2 。而分母部分是 Cov(X,X)
Cov(X,X) =E[(X-E(X))(X-E(X))]= Var(X) ,随机变量同自身的协方差等于该随机变量的方差。

因此,回归直线的斜率可以考虑为m= Cov(X,Y)Var(X)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值