第三课.最小二乘线性估计

线性拟合

平面线性拟合

线性回归是最简单的数据拟合方法,平面空间的线性回归利于直观理解:
fig1
平面上有很多样本点 ( x , y ) (x,y) (x,y),目标是找到一条直线 y = a x + b y=ax+b y=ax+b拟合这些样本,在实际问题中,样本点的特征不局限于1维,而是任意的 p p p维;

维度扩展

为了便于问题描述,引入符号:
假设有一组样本 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } D=\left\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\right\} D={(x1,y1),(x2,y2),...,(xn,yn)},其中, x i x_{i} xi是一个 p p p维向量,它可以表达第 i i i个样本被观察的 p p p个特征, y i y_{i} yi表示第 i i i个样本的取值,是一个数值,所以拟合的直线表示样本 p p p个特征到最终取值的线性映射关系;

因此, N N N个样本的集合写作: X = [ x 1 , x 2 , . . . , x N ] T X=[x_{1},x_{2},...,x_{N}]^{T} X=[x1,x2,...,xN]T;每个样本写作向量 x i = [ x i 1 , x i 2 , . . . , x i p ] x_{i}=[x_{i1},x_{i2},...,x_{ip}] xi=[xi1,xi2,...,xip],最终目标是估计系数 w = [ w 1 , w 2 , . . . , w p ] w=[w_{1},w_{2},...,w_{p}] w=[w1,w2,...,wp]和一个偏置 b b b,从而建立映射:
w T x + b ⇒ y w^{T}x+b\Rightarrow y wTx+by
为了书写简便,可以将偏置 b b b作为系数 w 0 w_{0} w0,得到:
fig2
w T x + b ⇒ y w^{T}x+b\Rightarrow y wTx+by变成 w T x ⇒ y w^{T}x\Rightarrow y wTxy

最小二乘参数估计

在最小二乘法估计中,定义目标函数如下:
L ( w ) = ∑ i = 1 N ∣ w T x i − y i ∣ 2 L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2} L(w)=i=1NwTxiyi2
针对 N N N个样本,找到一个系数向量 w w w,使得拟合结果和真实值间误差的平方和最小;

高斯噪声与最小二乘

探究高斯噪声与最小二乘的关系

通过线性拟合,能否让直线精确通过每一个样本,使得拟合的误差为0;显然这是不可能的,因为样本本身携带噪声,带有随机性,所以可以得到另一种理解:拟合的直线代表样本分布的确定性,拟合值和真实值的误差(也可称为噪声),代表了随机性;

对于随机性的噪声 ϵ \epsilon ϵ,也许可以用高斯分布来描述:
ϵ ∼ N ( 0 , σ 2 ) \epsilon\sim N(0,\sigma^{2}) ϵN(0,σ2)
因此,可以得到:
y = w T x + ϵ y=w^{T}x+\epsilon y=wTx+ϵ
显然,在 w w w x x x确定的情况下, y y y也将服从正态分布:
y ∼ N ( w T x , σ 2 ) y\sim N(w^{T}x,\sigma^{2}) yN(wTx,σ2)
其概率密度也是一个条件概率:
p ( y ∣ x , w ) = 1 2 π σ 2 e x p ( − ( y − w T x ) 2 2 σ 2 ) p(y|x,w)=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}}) p(yx,w)=2πσ2 1exp(2σ2(ywTx)2)
此时,可以使用极大似然估计去获得参数 w w w,对数似然函数为:
L ( w ) = l o g ∏ i = 1 N p ( y i ∣ x i , w ) = ∑ i = 1 N l o g ( p ( y i ∣ x i , w ) ) = ∑ i = 1 N ( l o g 1 2 π σ 2 − ( y i − w T x i ) 2 2 σ 2 ) L(w)=log\prod_{i=1}^{N}p(y_{i}|x_{i},w)=\sum_{i=1}^{N}log(p(y_{i}|x_{i},w))=\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi\sigma^{2}}}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}}) L(w)=logi=1Np(yixi,w)=i=1Nlog(p(yixi,w))=i=1N(log2πσ2 12σ2(yiwTxi)2)
去除与 w w w无关的项,目标化简为:
w m l e = a r g m a x w ∑ i = 1 N − ( y i − w T x i ) 2 = a r g m i n w ∑ i = 1 N ( y i − w T x i ) 2 w_{mle}=argmax_{w}\sum_{i=1}^{N}-(y_{i}-w^{T}x_{i})^{2}=argmin_{w}\sum_{i=1}^{N}(y_{i}-w^{T}x_{i})^{2} wmle=argmaxwi=1N(yiwTxi)2=argminwi=1N(yiwTxi)2
可以看出,正好就是最小二乘法参数估计的目标函数 L ( w ) = ∑ i = 1 N ∣ w T x i − y i ∣ 2 L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2} L(w)=i=1NwTxiyi2,所以,最小二乘法本身就隐含了噪声服从0均值正态分布的假设;

参数估计

现在需要求解 w m l e w_{mle} wmle,首先展开目标函数:
fig3
对向量 [ w T x 1 − y 1 , w T x 2 − y 2 , . . . , w T x N − y N ] [w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}] [wTx1y1,wTx2y2,...,wTxNyN]进行简单处理:
[ w T x 1 − y 1 , w T x 2 − y 2 , . . . , w T x N − y N ] = w T [ x 1 , x 2 , . . . , x N ] − [ y 1 , y 2 , . . . , y N ] = w T X T − Y T [w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}]=w^{T}[x_{1},x_{2},...,x_{N}]-[y_{1},y_{2},...,y_{N}]=w^{T}X^{T}-Y^{T} [wTx1y1,wTx2y2,...,wTxNyN]=wT[x1,x2,...,xN][y1,y2,...,yN]=wTXTYT
同样的,后一项作为转置有:
( w T X T − Y T ) T = X w − Y (w^{T}X^{T}-Y^{T})^{T}=Xw-Y (wTXTYT)T=XwY
得到:
L ( w ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − 2 w T X T Y + Y T Y L(w)=(w^{T}X^{T}-Y^{T})(Xw-Y)=w^{T}X^{T}Xw-2w^{T}X^{T}Y+Y^{T}Y L(w)=(wTXTYT)(XwY)=wTXTXw2wTXTY+YTY
计算关于 w w w的偏导数,并令偏导数为0:
∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 ⇒ w = ( X T X ) − 1 X T Y \frac{\partial L(w)}{\partial w}=2X^{T}Xw-2X^{T}Y=0\Rightarrow w=(X^{T}X)^{-1}X^{T}Y wL(w)=2XTXw2XTY=0w=(XTX)1XTY

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值