线性回归


数据集:
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x N , y N ) } D=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\} D={(x1,y1),(x2,y2),...(xN,yN)}
样本:
x i ∈ R p y i ∈ R x_i \in R^p \quad y_i \in R xiRpyiR
样本的矩阵表示:
X = ( x 1 , x 2 , . . . , x N ) T Y = ( y 1 , y 2 , . . . , y N ) T X=(x_1,x_2,...,x_N)^T \quad Y=(y_1,y_2,...,y_N)^T X=(x1,x2,...,xN)TY=(y1,y2,...,yN)T
拟合函数:
f ( w ) = W T X f(w)=W^TX f(w)=WTX

  1. 最小二乘角度:
    损失函数:
    L ( w ) = ∑ i = 1 N ( f ( w ) − y i ) 2 L(w) =\displaystyle\sum_{i=1}^N(f(w)-y_i)^2 L(w)=i=1N(f(w)yi)2
    = ∑ i = 1 N ( w T x i − y i ) 2 =\displaystyle\sum_{i=1}^N(w^Tx_i-y_i)^2 =i=1N(wTxiyi)2
    = ( w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ) ( w T x 1 − y 1 w T x 2 − y 2 . . . . . . . . . . . . . . w T x N − y N ) =(w^Tx_1-y_1 \quad w^Tx_2-y_2 \quad... \quad w^Tx_N-y_N) \left( \begin{array}{ccc} w^Tx_1-y_1 \\ w^Tx_2-y_2 \\ ..............\\ w^Tx_N-y_N \end{array} \right) =(wTx1y1wTx2y2...wTxNyN)wTx1y1wTx2y2..............wTxNyN
    = { ( w T x 1 w T x 2 . . . w T x N ) − ( y 1 , y 2 , . . . , y N ) } ( w T x 1 − y 1 w T x 2 − y 2 . . . . . . . . . . . . . . w T x N − y N ) =\{(w^Tx_1 \quad w^Tx_2 \quad... \quad w^Tx_N)-(y_1,y_2,...,y_N)\} \left( \begin{array}{ccc} w^Tx_1-y_1 \\ w^Tx_2-y_2 \\ ..............\\ w^Tx_N-y_N \end{array} \right) ={(wTx1wTx2...wTxN)(y1,y2,...,yN)}wTx1y1wTx2y2..............wTxNyN

= { w T ( x 1 x 2 . . . x N ) − ( y 1 , y 2 , . . . , y N ) } ( w T x 1 − y 1 w T x 2 − y 2 . . . . . . . . . . . . . . w T x N − y N ) =\{w^T(x_1 \quad x_2 \quad... \quad x_N)-(y_1,y_2,...,y_N)\} \left( \begin{array}{ccc} w^Tx_1-y_1 \\ w^Tx_2-y_2 \\ ..............\\ w^Tx_N-y_N \end{array} \right) ={wT(x1x2...xN)(y1,y2,...,yN)}wTx1y1wTx2y2..............wTxNyN

= ( w T X T − Y T ) ( w X − Y ) =(w^TX^T-Y^T)(wX-Y) =(wTXTYT)(wXY)
展开函数:
= w T X T w X − Y T w X − Y w T X T + Y T Y =w^TX^TwX-Y^TwX-Yw^TX^T+Y^TY =wTXTwXYTwXYwTXT+YTY
Y T w X 和 Y w T X T Y^TwX和Yw^TX^T YTwXYwTXT计算结果都是标量,可以进行合并
= w T X T w X − 2 Y w T X T + Y T Y =w^TX^TwX-2Yw^TX^T+Y^TY =wTXTwX2YwTXT+YTY
对w求偏导,并令导数为0有
∂ L ( w ) ∂ w = 2 X T X W − 2 X T Y = 0 \frac{\partial L(w)}{\partial w}=2X^TXW-2X^TY=0 wL(w)=2XTXW2XTY=0
X T X W = X T Y X^TXW=X^TY XTXW=XTY
所以解析解为:
W = ( X T X ) − 1 X T Y W=(X^TX)^{-1}X^TY W=(XTX)1XTY

  1. 几何角度:
    可以把 X = { x 1 , x 2 , . . . , x n } X=\{x_1,x_2,...,x_n\} X={x1,x2,...,xn}构成的矩阵看作一个子空间,那么显然, Y 构 成 的 向 量 不 在 该 列 空 间 中 Y构成的向量不在该列空间中 Y
    那么也就是在X的列空间找到一个向量 v v v,使得 Y 到 X 的 距 离 最 短 Y到X的距离最短 YX
    根据投影知道: Y 到 子 空 间 X 的 投 影 距 离 是 最 短 的 Y到子空间X的投影距离是最短的 YX
    在这里插入图片描述
    令:
    X W 是 向 量 Y 在 X 上 面 的 投 影 , 则 有 : XW是向量Y在X上面的投影,则有: XWYX
    X W − Y XW-Y XWY是X的正交补,从而有:
    X T ( X W − Y ) = 0 X^T(XW-Y)=0 XT(XWY)=0
    也就是
    X T X W = X T Y X^TXW=X^TY XTXW=XTY
    W = ( X T X ) − 1 X T Y W=(X^TX)^{-1}X^TY W=(XTX)1XTY
    可见和最小二乘计算结果一致

  2. 概率角度:

    f ( x ) = w T x f(x)=w^Tx f(x)=wTx
    y = f ( x ) + ε y = f(x) + \varepsilon y=f(x)+ε
    ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma^2) εN(0,σ2)
    有:
    y = w T x + ε y = w^Tx+ \varepsilon y=wTx+ε
    所以 y 也 服 从 正 态 分 布 , 均 值 和 方 差 分 别 是 w T x , σ 2 y也服从正态分布,均值和方差分别是w^Tx,\sigma^2 ywTxσ2
    可以记作
    y ∣ x , w ∼ N ( w T x , σ 2 ) y|x,w \sim N(w^Tx,\sigma^2) yx,wN(wTx,σ2)
    对应的概率密度函数为
    p ( y ∣ x , w ) = 1 2 π σ e x p ( − ( y i − w T x ) 2 2 σ 2 ) p(y|x,w) =\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-w^Tx)^2}{2\sigma^2}) p(yx,w)=2π σ1exp(2σ2(yiwTx)2)
    对其应用对数似然函数有
    L ( w ) = log ⁡ P ( Y ∣ X , W ) = log ⁡ ∏ i = 1 n p ( y ∣ x , w ) = ∑ 1 n log ⁡ p ( y ∣ x , w ) L(w) = \log P(Y|X,W)=\log \prod_{i=1}^n p(y|x,w)=\sum_{1}^n \log p(y|x,w) L(w)=logP(YX,W)=logi=1np(yx,w)=1nlogp(yx,w)
    展开
    L ( w ) = ∑ 1 n log ⁡ 1 2 π σ e x p ( − ( y i − w T x ) 2 2 σ 2 ) L(w) =\sum_{1}^n \log \frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-w^Tx)^2}{2\sigma^2}) L(w)=1nlog2π σ1exp(2σ2(yiwTx)2)
    L ( w ) = ∑ 1 n ( log ⁡ 1 2 π σ − ( y i − w T x ) 2 2 σ 2 ) L(w) =\sum_{1}^n (\log \frac {1}{\sqrt{2\pi}\sigma}-\frac{(y^i-w^Tx)^2}{2\sigma^2}) L(w)=1n(log2π σ12σ2(yiwTx)2)
    想要
    a r g m a x ( L ( W ) argmax(L(W) argmax(L(W)
    也就是
    a r g m a x ( ∑ 1 n ( − ( y i − w T x ) 2 2 σ 2 ) ) argmax(\sum_{1}^n (-\frac{(y^i-w^Tx)^2}{2\sigma^2})) argmax(1n(2σ2(yiwTx)2))
    也就是
    a r g m i n ( ∑ 1 n ( y i − w T x ) 2 ) argmin(\sum_{1}^n (y^i-w^Tx)^2) argmin(1n(yiwTx)2)
    可以看到和最小二乘公式是一样的

  3. 带正则项的损失函数:
    当样本数量较少时,容易出现过拟合问题
    解决过拟合的几种办法
    { 增 加 数 据 选 取 特 征 、 或 者 降 维 ( P C A ) 正 则 化 \begin{cases} 增加数据 \\ 选取特征、或者降维(PCA) \\ 正则化 \end{cases} PCA
    这里介绍两种基于线性回归的正则化方法
    { l a s s o 回 归 ( 1 范 数 ) r i d g e 回 归 ( 领 回 归 , 2 范 数 ) \begin{cases} lasso回归(1范数) \\ ridge回归(领回归,2范数) \\ \end{cases} {lasso(1)ridge2

带正则化的损失函数形式:
L ( w ) = ∑ i = 1 N ( f ( w ) − y i ) 2 + λ p ( w ) L(w) =\displaystyle\sum_{i=1}^N(f(w)-y_i)^2+\lambda p(w) L(w)=i=1N(f(w)yi)2+λp(w)
λ p ( w ) 称 作 惩 罚 项 \lambda p(w) 称作惩罚项 λp(w)
这里以领回归为例:
= w T X T X w − 2 Y w T X T + Y T Y + λ w T w =w^TX^TXw-2Yw^TX^T+Y^TY+\lambda w^Tw =wTXTXw2YwTXT+YTY+λwTw
= w T ( X T X + λ I ) w − 2 Y w T X T + Y T Y =w^T(X^TX+\lambda I)w-2Yw^TX^T+Y^TY =wT(XTX+λI)w2YwTXT+YTY
对w求偏导有:
∂ L ( w ) ∂ w = 2 ( X T X + λ I ) w − 2 X T Y = 0 \frac{\partial L(w)}{\partial w}=2(X^TX+\lambda I)w-2X^TY=0 wL(w)=2(XTX+λI)w2XTY=0
( X T X + λ I ) w = X T Y (X^TX+\lambda I)w=X^TY (XTX+λI)w=XTY
所以解析解为:
W = ( X T X + λ I ) ) − 1 X T Y W=(X^TX+\lambda I))^{-1}X^TY W=(XTX+λI))1XTY

  1. 贝叶斯角度:
    假定:
    f ( x ) = w t x f(x)=w^tx f(x)=wtx
    y = w t x + ε y=w^tx+ \varepsilon y=wtx+ε
    ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma^2) εN(0,σ2)
    w ∼ N ( 0 , σ 2 ) w \sim N(0,\sigma^2) wN(0,σ2)
    所以有:
    ( y ∣ x , w ) ∼ N ( w t x , σ 2 ) (y|x,w) \sim N(w^tx,\sigma^2) (yx,w)N(wtx,σ2)
    p ( y ∣ x , w ) = 1 2 π σ e x p ( − ( y i − w T x i ) 2 2 σ 2 ) p(y|x,w) =\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}) p(yx,w)=2π σ1exp(2σ2(yiwTxi)2)
    p ( w ) = 1 2 π σ e x p ( − w 2 2 σ 2 ) p(w) =\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{w^2}{2\sigma^2}) p(w)=2π σ1exp(2σ2w2)
    后验概率等于:
    p ( w ∣ y ) = p ( y ∣ w ) p ( w ) p ( y ) p(w|y)=\displaystyle \frac{p(y|w)p(w)}{p(y)} p(wy)=p(y)p(yw)p(w)
    最大化后验概率
    M A P : w = a r g m a x p ( w ∣ y ) MAP: w=argmax \quad p(w|y) MAP:w=argmaxp(wy)
    = a r g m a x p ( y ∣ w ) p ( w ) =argmax \quad p(y|w)p(w) =argmaxp(yw)p(w)
    = a r g m a x ∏ i = 1 n 1 2 π σ e x p ( − ( y i − w T x i ) 2 2 σ 2 ) 1 2 π σ e x p ( − w 2 2 σ 2 ) =argmax \quad \displaystyle \prod_{i=1}^n\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2})\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{w^2}{2\sigma^2}) =argmaxi=1n2π σ1exp(2σ2(yiwTxi)2)2π σ1exp(2σ2w2)
    = a r g m a x ∏ i = 1 n 1 2 π σ 2 e x p ( − ( y i − w T x i ) 2 2 σ 2 − w 2 2 σ 2 ) =argmax \quad \displaystyle \prod_{i=1}^n\frac {1}{2\pi\sigma^2}exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{w^2}{2\sigma^2}) =argmaxi=1n2πσ21exp(2σ2(yiwTxi)22σ2w2)
    = a r g m a x ∑ i = 1 n { log ⁡ 1 2 π σ 2 − ( ( y i − w T x i ) 2 2 σ 2 + w 2 2 σ 2 ) } =argmax \quad \displaystyle \sum_{i=1}^n\{ \log \frac {1}{2\pi\sigma^2}-(\frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{w^2}{2\sigma^2})\} =argmaxi=1n{log2πσ21(2σ2(yiwTxi)2+2σ2w2)}
    = a r g m i n ∑ i = 1 n ( ( y i − w T x i ) 2 2 σ 2 + w 2 2 σ 2 ) =argmin \quad \displaystyle \sum_{i=1}^n(\frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{w^2}{2\sigma^2}) =argmini=1n(2σ2(yiwTxi)2+2σ2w2)
    = a r g m i n ∑ i = 1 n ( ( y i − w T x i ) 2 2 σ 2 + 1 2 σ 2 w 2 ) =argmin \quad \displaystyle \sum_{i=1}^n(\frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{1}{2\sigma^2}w^2) =argmini=1n(2σ2(yiwTxi)2+2σ21w2)

可见和领回归公式是类似的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值