<机器学习><白板推导系列><三>

本文探讨了线性回归中的最小二乘法,从概率和贝叶斯角度解释其原理。通过高斯分布噪声模型,展示了最小二乘法等价于极大似然估计。接着介绍了正则化,特别是L1正则化(Lasso)和L2正则化(Ridge),并从频率和贝叶斯角度阐述它们如何防止过拟合。最后,将正则化与最大后验估计(MAP)联系起来,展示了正则化线性最小二乘估计与MAP估计之间的关系。
摘要由CSDN通过智能技术生成

Note

样本集
D = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x i , y i ) , . . . , ( x N , y N ) x i ∈ R p , y i ∈ R X = ( x 1 , x 2 , . . . , x N ) T ∈ R N × p Y = ( y 1 , y 2 , . . . , y N ) T ∈ R N D=(x_1, y_1), (x_2, y_2), ..., (x_i, y_i), ..., (x_N, y_N)\\ x_i \in \mathbb{R^p} , y_i \in \mathbb{R}\\ X = (x_1, x_2, ..., x_N)^T \in \mathbb{R^{N \times p}} \\ Y = (y_1, y_2, ..., y_N)^T \in \mathbb{R^{N}} D=(x1,y1),(x2,y2),...,(xi,yi),...,(xN,yN)xiRp,yiRX=(x1,x2,...,xN)TRN×pY=(y1,y2,...,yN)TRN

最小二乘法

线性模型
y ^ = w T x i + b w ∈ R p , b ∈ R \hat{y} = w^Tx_i + b\\w \in \mathbb{R^p},b \in \mathbb{R} y^=wTxi+bwRp,bR
损失函数 Loss function
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 = ∑ i = 1 N ( w T x i − y i ) 2 = ( w T x 1 − y 1 , w T x 2 − y 2 , . . . , w T x N − y N ) ( w T x 1 − y 1 , w T x 2 − y 2 , . . . , w T x N − y N ) T L(w) = \sum_{i=1}^{N}||w^Tx_i-y_i||^2= \sum_{i=1}^{N}(w^Tx_i-y_i)^2 \\=(w^Tx_1-y_1, w^Tx_2-y_2, ... , w^Tx_N-y_N)(w^Tx_1-y_1, w^Tx_2-y_2, ... , w^Tx_N-y_N)^T L(w)=i=1NwTxiyi2=i=1N(wTxiyi)2=(wTx1y1,wTx2y2,...,wTxNyN)(wTx1y1,wTx2y2,...,wTxNyN)T
存在:
( w T x 1 − y 1 , w T x 2 − y 2 , . . . , w T x N − y N ) = w T ( x 1 , x 2 , . . . , x N ) − ( y 1 , y 2 , . . . , y N ) = w T X T − Y T (w^Tx_1-y_1, w^Tx_2-y_2, ... , w^Tx_N-y_N)=w^T(x_1,x_2,...,x_N) - (y_1,y_2,...,y_N) = w^TX^T-Y^T (wTx1y1,wTx2y2,...,wTxNyN)=wT(x1,x2,...,xN)(y1,y2,...,yN)=wTXTYT
所以:
L ( w ) = ( w T X T − Y T ) ( w T X T − Y T ) T = ( w T X T − Y T ) ( X W − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y L(w) = (w^TX^T-Y^T)(w^TX^T-Y^T)^T\\=(w^TX^T-Y^T)(XW-Y)\\=w^TX^TXw-w^TX^TY-Y^TXw+Y^TY L(w)=(wTXTYT)(wTXTYT)T=(wTXTYT)(XWY)=wTXTXwwTXTYYTXw+YTY
因为:
w ∈ R p , X ∈ R N × p , Y ∈ R N w \in \mathbb{R^p},X \in \mathbb{R^{N \times p}},Y\in \mathbb{R^{N}} wRp,XRN×p,YRN
则:
w T X T Y ∈ R , Y T X w ∈ R w^TX^TY\in \mathbb{R}, Y^TXw\in \mathbb{R} wTXTYR,YTXwR
那么:
L ( w ) = w T X T X w − w T X T Y − Y T X w + Y T Y = w T X T X w − 2 w T X T Y + Y T Y L(w) =w^TX^TXw-w^TX^TY-Y^TXw+Y^TY\\=w^TX^TXw-2w^TX^TY+Y^TY L(w)=wTXTXwwTXTYYTXw+YTY=wTXTXw2wTXTY+YTY
最小二乘估计LSE:
w ^ = a r g m i n L ( w ) ∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 w ^ = ( X T X ) − 1 X T Y \hat{w}=argmin L(w)\\ \frac{\partial{L(w)}}{\partial{w}}=2X^TXw-2X^TY=0\\\hat{w}=(X^TX)^{-1}X^TY w^=argminL(w)wL(w)=2XTXw2XTY=0w^=(XTX)1XTY
其中
X + = ( X T X ) − 1 X T X^{+}=(X^TX)^{-1}X^T X+=(XTX)1XT称作伪逆

概率角度

设存在高斯分布噪声:
ϵ ∼ N ( 0 , σ 2 ) y ^ = w T x + ϵ \epsilon \sim \mathcal{N}(0, \sigma^2)\\\hat{y}=w^Tx+\epsilon ϵN(0,σ2)y^=wTx+ϵ
则:
y ^ ∼ N ( w T x , σ 2 ) \hat{y} \sim \mathcal{N}(w^Tx, \sigma^2) y^N(wTx,σ2)
似然likelihood:
L ( w ) = l o g P ( Y ∣ X ; w ) = log ⁡ ∏ i = 1 N P ( y i ∣ x i ; w ) = ∑ i = 1 N l o g P ( y i ∣ x i ; w ) L(w)=logP(Y|X;w)\\=\log\prod_{i=1}^NP(y_i|x_i;w)\\=\sum_{i=1}^NlogP(y_i|x_i;w) L(w)=logP(YX;w)=logi=1NP(yixi;w)=i=1NlogP(yixi;w)
又:
p ( y ∣ x ; w ) = 1 σ 2 π ⋅ e x p ( − ( y − w T x ) 2 2 σ 2 ) p(y|x;w) = \frac{1}{\sigma\sqrt{2\pi}}\cdot exp(-\frac{(y-w^Tx)^2}{2\sigma^2}) p(yx;w)=σ2π 1exp(2σ2(ywTx)2)
因此:
L ( w ) = ∑ i = 1 N l o g P ( y i ∣ x i ; w ) = ∑ i = 1 N l o g 1 σ 2 π ⋅ e x p ( − ( y i − w T x i ) 2 2 σ 2 ) = ∑ i = 1 N [ l o g ( 1 σ 2 π ) − ( y i − w T x i ) 2 2 σ 2 ] L(w)=\sum_{i=1}^NlogP(y_i|x_i;w)\\ =\sum_{i=1}^N log\frac{1}{\sigma\sqrt{2\pi}}\cdot exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}) \\ = \sum_{i=1}^N \left[log(\frac{1}{\sigma\sqrt{2\pi}}) - \frac{(y_i-w^Tx_i)^2}{2\sigma^2} \right] L(w)=i=1NlogP(yixi;w)=i=1Nlogσ2π 1exp(2σ2(yiwTxi)2)=i=1N[log(σ2π 1)2σ2(yiwTxi)2]
那么,极大似然估计:
w ^ = arg max ⁡ w L ( w ) = arg max ⁡ w ∑ i = 1 N [ l o g ( 1 σ 2 π ) − ( y i − w T x i ) 2 2 σ 2 ] = arg min ⁡ w ∑ i = 1 N ( y i − w T x i ) 2 \hat{w}=\mathop{\argmax_w}L(w)\\=\mathop{\argmax_w}\sum_{i=1}^N \left[log(\frac{1}{\sigma\sqrt{2\pi}}) - \frac{(y_i-w^Tx_i)^2}{2\sigma^2} \right] \\=\mathop{\argmin_w} \sum_{i=1}^N (y_i-w^Tx_i)^2 w^=wargmaxL(w)=wargmaxi=1N[log(σ2π 1)2σ2(yiwTxi)2]=wargmini=1N(yiwTxi)2
也就是说,最小二乘估计LSE <=> 极大似然估计 MLE (noise is Gaussian Distribution)

正则化

过拟合:

  1. 增加数据量
  2. 降维:特征选择/特征提取
  3. 正则化

正则化框架:
arg min ⁡ w L ( w ) + λ P ( w ) \mathop{\argmin_w} L(w) + \lambda P(w) wargminL(w)+λP(w)

L1 Lasso

P ( w ) = ∣ ∣ w ∣ ∣ 1 P(w) = ||w||_1 P(w)=w1

L2 Ridge

频率角度

P ( w ) = ∣ ∣ w ∣ ∣ 2 2 = w T w P(w) = ||w||_2^2=w^Tw P(w)=w22=wTw
权值衰减
Ridge regression:
L ( w ) = ∑ i N ∣ ∣ w T x i − y i ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 2 2 = ∑ i N ( w T x i − y i ) 2 + λ w T w = ( w T X T − Y T ) ( X w − Y ) + λ w T w = w T X T X w − 2 w T X T Y + Y T Y + λ w T w = w T ( X T X + λ I ) w − 2 w T X T Y + Y T Y L(w) = \sum_i^N ||w^Tx_i-y_i||_2^2 + \lambda ||w||_2^2\\=\sum_i^N (w^Tx_i-y_i)^2 + \lambda w^Tw\\=(w^TX^T-Y^T)(Xw-Y)+\lambda w^Tw\\=w^TX^TXw - 2w^TX^TY+Y^TY+\lambda w^Tw\\=w^T(X^TX+\lambda I)w-2w^TX^TY+Y^TY L(w)=iNwTxiyi22+λw22=iN(wTxiyi)2+λwTw=(wTXTYT)(XwY)+λwTw=wTXTXw2wTXTY+YTY+λwTw=wT(XTX+λI)w2wTXTY+YTY
那么
w ^ = arg min ⁡ w L ( w ) ∂ L ( w ) ∂ w = 2 ( X T X + λ I ) w − 2 X T Y = 0 w ^ = ( X T X + λ I ) − 1 X T Y \hat{w}=\mathop{\argmin_w}L(w)\\ \frac{\partial L(w)}{\partial w}=2(X^TX+\lambda I)w-2X^TY=0\\ \hat{w}=(X^TX+\lambda I)^{-1}X^TY w^=wargminL(w)wL(w)=2(XTX+λI)w2XTY=0w^=(XTX+λI)1XTY

贝叶斯角度

设存在高斯分布噪声:
ϵ ∼ N ( 0 , σ 2 ) y ^ = w T x + ϵ \epsilon \sim \mathcal{N}(0, \sigma^2)\\\hat{y}=w^Tx+\epsilon ϵN(0,σ2)y^=wTx+ϵ
则似然 P ( y ∣ x ; w ) P(y|x;w) P(yx;w)
y ^ ∼ N ( w T x , σ 2 ) p ( y ∣ w ) = 1 σ 2 π exp ⁡ ( − ( y − w T x ) 2 2 σ 2 ) \hat{y} \sim \mathcal{N}(w^Tx, \sigma^2)\\p(y|w)=\frac{1}{\sigma \sqrt{2\pi}}\exp(-\frac{(y-w^Tx)^2}{2\sigma ^2}) y^N(wTx,σ2)p(yw)=σ2π 1exp(2σ2(ywTx)2)
设参数 w w w的先验分布满足:
w ∼ N ( 0 , σ w 2 ) p ( w ) = 1 σ w 2 π exp ⁡ ( − ∣ ∣ w ∣ ∣ 2 2 σ w 2 ) w \sim \mathcal{N}(0, \sigma_{w}^2)\\p(w)=\frac{1}{\sigma_{w}\sqrt{2\pi}}\exp(-\frac{||w||^2}{2\sigma_{w}^2}) wN(0,σw2)p(w)=σw2π 1exp(2σw2w2)
那么,后验分布为:
p ( w ∣ y ) = p ( y ∣ w ) p ( w ) p ( y ) p(w|y) = \frac{p(y|w)p(w)}{p(y)} p(wy)=p(y)p(yw)p(w)
最大似然估计MAP:
w ^ = arg max ⁡ w log ⁡ p ( w ∣ y ) = arg max ⁡ w log ⁡ ( p ( y ∣ w ) p ( w ) ) \hat{w}=\mathop{\argmax_w} \log p(w|y)\\=\mathop{\argmax_w} \log (p(y|w)p(w)) w^=wargmaxlogp(wy)=wargmaxlog(p(yw)p(w))
有:
p ( y ∣ w ) p ( w ) = 1 2 π σ σ w exp ⁡ ( − ( y − w T x ) 2 2 σ 2 − ∣ ∣ w ∣ ∣ 2 2 σ w 2 ) p(y|w)p(w)=\frac{1}{2\pi\sigma \sigma_{w}} \exp\left(-\frac{(y-w^Tx)^2}{2\sigma^2}-\frac{||w||^2}{2\sigma_{w}^2}\right) p(yw)p(w)=2πσσw1exp(2σ2(ywTx)22σw2w2)
因此:
w ^ = arg max ⁡ w log ⁡ ∏ i = 1 N p ( y i ∣ w ) p ( w ) = arg max ⁡ w ∑ i = 1 N [ log ⁡ 1 2 π σ σ w − ( y i − w T x i ) 2 2 σ 2 − ∣ ∣ w ∣ ∣ 2 2 σ w 2 ] = arg min ⁡ w ∑ i = 1 N [ ( y i − w T x i ) 2 2 σ 2 + ∣ ∣ w ∣ ∣ 2 2 σ w 2 ] = arg min ⁡ w ∑ i = 1 N [ ( y i − w T x i ) 2 + σ 2 σ w 2 ∣ ∣ w ∣ ∣ 2 ] = arg min ⁡ w ∑ i = 1 N ( y i − w T x i ) 2 + ∑ i = 1 N σ 2 σ w 2 ∣ ∣ w ∣ ∣ 2 \hat{w}=\mathop{\argmax_w} \log \prod_{i=1}^Np(y_i|w)p(w) =\mathop{\argmax_w} \sum_{i=1}^N\left[\log \frac{1}{2\pi\sigma \sigma_{w}} -\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{||w||^2}{2\sigma_{w}^2}\right]\\=\mathop{\argmin_w}\sum_{i=1}^N\left[ \frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{||w||^2}{2\sigma_{w}^2}\right]\\=\mathop{\argmin_w}\sum_{i=1}^N\left[ (y_i-w^Tx_i)^2+\frac{\sigma^2}{\sigma_{w}^2}||w||^2\right]\\=\mathop{\argmin_w}\sum_{i=1}^N(y_i-w^Tx_i)^2+\sum_{i=1}^N\frac{\sigma^2}{\sigma_{w}^2}||w||^2 w^=wargmaxlogi=1Np(yiw)p(w)=wargmaxi=1N[log2πσσw12σ2(yiwTxi)22σw2w2]=wargmini=1N[2σ2(yiwTxi)2+2σw2w2]=wargmini=1N[(yiwTxi)2+σw2σ2w2]=wargmini=1N(yiwTxi)2+i=1Nσw2σ2w2
Regularized LSE <=> MAP (noise is Gaussian distribution;prior is Gaussian distribution)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值