线性回归——最小二乘法

一、绪论

机器学习的本质就是要学到模型中的参数,根据看待参数的方法的不同,机器学习可以分为频率派和概率派,即统计机器学习和概率图模型。

数据: X = ( x 1    x 2    x 3   . . .   x N ) X=(x_1~~x_2~~x_3~...~x_N) X=(x1  x2  x3 ... xN)
       = = = ( x 11    x 12    x 13   . . .   x 1 n x 21    x 22    x 23   . . .   x 2 n . . . x N 1    x N 2    x N 3   . . .   x N n ) \begin{pmatrix} x_{11}~~x_{12}~~x_{13}~...~x_{1n}\\x_{21}~~x_{22}~~x_{23}~...~x_{2n}\\...\\x_{N1}~~x_{N2}~~x_{N3}~...~x_{Nn}\end{pmatrix} x11  x12  x13 ... x1nx21  x22  x23 ... x2n...xN1  xN2  xN3 ... xNn
参数: θ \theta θ

1、频率派——统计机器学习

认为 θ \theta θ是未知的常量,使用MLE(最大似然估计),MLE即再当前参数下使得概率最大。
MLE: a r g   m a x θ               P ( X ∣ θ ) \underset{\theta~~~~~~~~~~~}{arg~max}~P(X|\theta) θ           arg max P(Xθ)

2、概率派——概率图模型

认为 θ \theta θ是随机变量,有概率分布函数 p ( θ ) p(\theta) p(θ),使用MAP(最大后验概率估计)。
MAP: a r g   m a x θ                P ( θ ∣ X ) = P ( X ∣ θ ) p ( θ ) P ( X )                                    = P ( θ ∣ X ) ∫ θ P ( X ∣ θ ) p ( θ ) d θ \underset{\theta~~~~~~~~~~~~}{arg~max}~P(\theta|X)=\frac{P(X|\theta)p(\theta)}{P(X)}\\ \\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{P(\theta|X)}{\int_\theta P(X|\theta)p(\theta)d\theta} θ            arg max P(θX)=P(X)P(Xθ)p(θ)                                  =θP(Xθ)p(θ)dθP(θX)

MAP估计参数的时候,一般不考虑分母,对 θ \theta θ积分,分母可以视为一个常数,MAP也称为贝叶斯估计。

贝叶斯预测,根据X和 θ \theta θ x ^ \hat{x} x^进行预测:
P ( x ^ ∣ X ) = ∫ θ P ( x ^ , θ ∣ X ) d θ               = ∫ θ P ( x ^ ∣ θ ) p ( θ ∣ X ) d θ P(\hat{x}|X)=\int_\theta P(\hat{x},\theta|X)d\theta \\ ~~~~~~~~~~~~~=\int_\theta P(\hat{x}|\theta)p(\theta|X)d\theta P(x^X)=θP(x^,θX)dθ             =θP(x^θ)p(θX)dθ

贝叶斯决策中, θ \theta θ将未知 x ^ \hat{x} x^与已知 X X X联系起来。在贝叶斯决策中,因为要计算具体的概率,所以要求出 P ( θ ∣ X ) P(\theta|X) P(θX),所以计算 P ( X ) P(X) P(X),即涉及积分计算。

3、关系

θ \theta θ的先验概率 p ( θ ) p(\theta) p(θ)将似然函数 P ( x ∣ θ ) P(x|\theta) P(xθ)与后验概率 P ( θ ∣ x ) P(\theta|x) P(θx)联系起来。

4、小结

频率派——统计机器学习:
(1)模型(可能与概率有关)
(2) l o s s f u n c t i o n loss function lossfunction
(3)优化问题

贝叶斯派——概率图模型:本质为求积分。

二、线性回归及其几何意义

1、从图看线性回归

从图看线性回归如上图所示有一些样本点,找一条直线去拟合这些样本点。
D a t a = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . ( x N , y N ) } , 其 中 x i ∈ R n , y i ∈ R , x i = ( x i 1    x i 2    x i 3   . . .   x i n ) T Data=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...(x_N,y_N)\},其中x_i\in R^n,y_i\in R,x_i=(x_{i1}~~x_{i2}~~x_{i3}~...~x_{in})^T Data={(x1,y1),(x2,y2),(x3,y3),...(xN,yN)},xiRn,yiR,xi=(xi1  xi2  xi3 ... xin)T
目标: f ( x i ) = w T x i + b , f(x_i) =w^Tx_i+b, f(xi)=wTxi+b写为增广形式,则为 f ( x i ) = w T x i f(x_i)=w^Tx_i f(xi)=wTxi
数据矩阵表示: X = ( x 1    x 2    . . .    x N ) T X=(x_1~~x_2~~...~~x_N)^T X=(x1  x2  ...  xN)T
= ( x 11     x 12     x 13     . . . .     x 1 n     1 x 21     x 22     x 23     . . . .     x 2 n     1              . . . . x N 1     x N 2     x N 3     . . . .     x N n     1 ) =\begin{pmatrix} x_{11}~~~x_{12}~~~x_{13}~~~....~~~x_{1n}~~~1\\x_{21}~~~x_{22}~~~x_{23}~~~....~~~x_{2n}~~~1\\~~~~~~~~~~~~....\\x_{N1}~~~x_{N2}~~~x_{N3}~~~....~~~x_{Nn}~~~1 \end{pmatrix} =x11   x12   x13   ....   x1n   1x21   x22   x23   ....   x2n   1            ....xN1   xN2   xN3   ....   xNn   1
一行为一个样本,X的维度为N*(n+1)。
Y = ( y 1     y 2     . . .     y N ) T Y=(y_1~~~y_2~~~...~~~y_N)^T Y=(y1   y2   ...   yN)T

LSE(最小二乘估计):线性回归,思想即找到 l o s s f u n c i t o n loss funciton lossfunciton,最小化 l o s s f u n c t i o n loss function lossfunction
l o s s f u n c t i o n loss function lossfunction: L ( w ) = ∑ i = 1 N ∣ ∣ f ( x i ) − y i ∣ ∣ 2 = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 = ∑ i = 1 N ( w T x i − y i ) ( w T x i − y i ) = ( w T x 1 − y 1     w T x 2 − y 2     . . .     w T x N − y N ) ( w T x 1 − y 1 w T x 2 − y 2 . . . w T x N − y N ) = ( w T X T − Y T ) ( w T X T − Y T ) T = w T X T X w − 2 w T X T Y + Y T Y L(w)=\sum\limits_{i=1}^N||f(x_i)-y_i||^2 \\ =\sum\limits_{i=1}^N||w^Tx_i-y_i||^2\\=\sum\limits_{i=1}^N(w^Tx_i-y_i)(w^Tx_i-y_i)\\=\begin{pmatrix}w^Tx_1-y_1~~~w^Tx_2-y_2~~~...~~~w^Tx_N-y_N \end{pmatrix}\begin{pmatrix} w^Tx_1-y_1\\w^Tx2-y2\\...\\w^Tx_N-y_N\end{pmatrix}\\=(w^TX^T-Y^T)(w^TX^T-Y^T)^T\\=w^TX^TXw-2w^TX^TY+Y^TY L(w)=i=1Nf(xi)yi2=i=1NwTxiyi2=i=1N(wTxiyi)(wTxiyi)=(wTx1y1   wTx2y2   ...   wTxNyN)wTx1y1wTx2y2...wTxNyN=(wTXTYT)(wTXTYT)T=wTXTXw2wTXTY+YTY

目标:最小化loss function
⇒ a r g   m i n θ            L ( w ) ⇒ ∂ L ( w ) ∂ w = 0 ⇒ w ∗ = ( X T X ) − 1 X T Y \Rightarrow \underset{\theta~~~~~~~~~~}{arg~min} L(w)\\ \Rightarrow \frac{\partial L(w)}{\partial w}=0\\ \Rightarrow w^*=(X^TX)^{-1}X^TY θ          arg minL(w)wL(w)=0w=(XTX)1XTY
l o s s f u n c t i o n loss function lossfunction看,LSE考虑了每个样本的误差,可以理解为将误差平摊到所有的样本上。

从几何角度看LSE: x ∈ R n , x = ( x 1 , x 2 , x 3 , . . . , x n ) x\in R^n,x=(x^1,x^2,x^3,...,x^n) xRn,x=(x1,x2,x3,...,xn),则样本的n维构成一个平面,而 y y y不在该平面上(若在,则 y y y可以直接由 x x x的各维组成,无误差,则完全拟合,也就不存在误差了),所以 y y y x x x张成的平面外,而 f ( x ) f(x) f(x) x x x各维线性组合,所以在该平面内。
因此:
LSE ⇒ \Rightarrow 找到 f ( x ) f(x) f(x)使得向量 y y y f ( x ) f(x) f(x)之间的距离最短
⇒ \Rightarrow y y y到平面的投影为 f ( x ) f(x) f(x),此时距离最短
⇒ \Rightarrow y − f ( x ) y-f(x) yf(x)垂直于平面的任意向量
⇒ \Rightarrow X T ( Y − X w ) = 0 X^T(Y-Xw)=0 XT(YXw)=0
⇒ w ∗ = ( X T X ) − 1 X T Y \Rightarrow w^*=(X^TX)^{-1}X^TY w=(XTX)1XTY
最优解不一定存在,因为可能逆不存在。
LSE的几何角度看,将误差分摊到每个样本的每一维,因为每一维共同张成的平面,而该平面决定了于 y y y的误差,所以相当于将误差平摊到每一维。

三、LSE频率视角(统计学习方法)

参数: w w w,视为未知的常量
结论:LSE等价于高斯噪声的MLE
证明:数据同(二),有高斯噪声 ϵ 服 从 N ( 0 , σ 2 ) , 即 y i = f ( x i ) + ϵ , 则 y i 服 从 N ( f ( x i ) , σ 2 ) 。 \epsilon服从N(0,\sigma^2),即y_i=f(x_i)+\epsilon,则y_i服从N(f(x_i),\sigma^2)。 ϵN(0,σ2)yi=f(xi)+ϵyiN(f(xi),σ2)
MLE: a r g m a x w            P ( Y ∣ w ) = a r g m a x w            ∏ i = 1 N P ( y i ∣ w ) ⇒ a r g m a x w           ∑ i = 1 N l o g P ( y i ∣ w ) 其 中 , P ( y i ∣ w ) = 1 2 π σ e x p ( − ( y i − f ( x i ) ) 2 2 σ 2 ) ⇒ a r g m a x w             ∑ i = 1 N ( − ( y i − f ( x i ) ) 2 2 σ 2 ) ⇒ a r g m i n w            ∑ i = 1 N ( ( y i − f ( x i ) ) 2 ) ⇒ a r g m i n w           ∑ i = 1 N ( ( y i − w T x i ) 2 ) \underset{w~~~~~~~~~~}{arg max} P(Y|w)\\=\underset{w~~~~~~~~~~}{argmax}\prod\limits_{i=1}^NP(y_i|w)\\\Rightarrow\underset{w~~~~~~~~~}{argmax}\sum\limits_{i=1}^NlogP(y_i|w)\\其中,P(y_i|w)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-f(x_i))^2}{2\sigma^2})\\\Rightarrow\underset{w~~~~~~~~~~~}{argmax}\sum\limits_{i=1}^N(-\frac{(y_i-f(x_i))^2}{2\sigma^2})\\\Rightarrow\underset{w~~~~~~~~~~}{argmin}\sum\limits_{i=1}^N((y_i-f(x_i))^2)\\ \Rightarrow\underset{w~~~~~~~~~}{argmin}\sum\limits_{i=1}^N((y_i-w^Tx_i)^2) w          argmaxP(Yw)=w          argmaxi=1NP(yiw)w         argmaxi=1NlogP(yiw)P(yiw)=2π σ1exp(2σ2(yif(xi))2)w           argmaxi=1N(2σ2(yif(xi))2)w          argmini=1N((yif(xi))2)w         argmini=1N((yiwTxi)2)
与LSE的 l o s s f u n c t i o n loss function lossfunction相同

四、LSE的正则化

1、过拟合

(1)LSE中需要有N>>n,即样本数量需远远大于数据的维度,否则会产生过拟合的问题。
(2)解决过拟合的方法:增加数据、特征选择\特征提取、正则化。

2、正则化

a r g m i n w             [ L ( w ) + λ P ( w ) ] 其 中 , L ( w ) 为 l o s s f u n c t i o n , P ( w ) 为 正 则 项 \underset{w~~~~~~~~~~~}{argmin}[L(w)+\lambda P(w)]\\其中,L(w)为loss function,P(w)为正则项 w           argmin[L(w)+λP(w)]L(w)lossfunctionP(w)
根据正则项的不同,可以分为:
(1) l a s s o : L 1 回 归 , P ( w ) = ∣ ∣ w ∣ ∣ 1 lasso:L1回归,P(w)=||w||_1 lasso:L1P(w)=w1
(2) 岭 回 归 : L 2 回 归 , P ( w ) = ∣ ∣ w ∣ ∣ 2 岭回归:L2回归,P(w)=||w||_2 L2P(w)=w2

3、LSE+正则化

岭回归:
J ( w ) = ∑ i = 1 N ∣ ∣ y i − f ( x i ) ∣ ∣ 2 2 + ∣ ∣ w ∣ ∣ 2 2 ⇒ m i n J ( w ) ⇒ m i n ( w T X T X w − 2 w T X T Y + Y T Y + λ w T w ⇒ ∂ J ( w ) ∂ w = 0 ⇒ w ∗ = ( X T X + λ I ) − 1 X T Y J(w)=\sum\limits_{i=1}^N||y_i-f(x_i)||_2^2+||w||_2^2\\\Rightarrow minJ(w)\\\Rightarrow min(w^TX^TXw-2w^TX^TY+Y^TY+\lambda w^Tw\\\Rightarrow \frac{\partial J(w)}{\partial w}=0\\\Rightarrow w^*=(X^TX+\lambda I)^{-1}X^TY J(w)=i=1Nyif(xi)22+w22minJ(w)min(wTXTXw2wTXTY+YTY+λwTwwJ(w)=0w=(XTX+λI)1XTY
最优解一定存在,因为逆一定存在。

五、LSE概率视角(贝叶斯角度)

参数: w w w
结论:LSE+L2等价于 p ( w ) = N ( 0 , σ 0 2 ) p(w)=N(0,\sigma_0^2) p(w)=N(0,σ02)的MAP。
回顾:MLE与MAP有关系,两者通过参数联系,所以在这里使用了MLE中的分布有高斯噪声。
假设:噪声 ϵ \epsilon ϵ服从 N ( 0 , σ 2 ) , y i = f ( x i ) + ϵ , w 服 从 N ( 0 , σ 0 2 ) 。 N(0,\sigma^2),y_i=f(x_i)+\epsilon,w服从N(0,\sigma_0^2)。 N(0,σ2),yi=f(xi)+ϵ,wN(0,σ02)
MAP:
J ( w ) = m a x   P ( X ∣ w ) P ( w ) ⇒ m a x   l o g P ( X ∣ w ) P ( w ) ⇒ m a x   l o g ∏ i = 1 N P ( x i ∣ w ) + l o g P ( w ) ⇒   m a x ∑ i = 1 N l o g P ( x i ∣ w ) + l o g P ( w ) ⇒ m a x ( ∑ i = 1 N ( − ( y i − f ( x i ) ) 2 ) 2 σ 2 ) − w T w 2 σ 0 2 ⇒ m i n ( ∑ i = 1 N ( y i − f ( x i ) ) 2 ) + σ 2 σ 0 2 ∣ ∣ w ∣ ∣ 2 2 J(w)=max~P(X|w)P(w)\\\Rightarrow max~logP(X|w)P(w)\\\Rightarrow max~log\prod\limits_{i=1}^NP(x_i|w)+logP(w)\\\Rightarrow~max\sum\limits_{i=1}^NlogP(x_i|w)+logP(w)\\\Rightarrow max(\sum\limits_{i=1}^N\frac{(-(y_i-f(x_i))^2)}{2\sigma^2})-\frac{w^Tw}{2\sigma_0^2}\\\Rightarrow min(\sum\limits_{i=1}^N(y_i-f(x_i))^2)+\frac{\sigma^2}{\sigma_0^2}||w||_2^2 J(w)=max P(Xw)P(w)max logP(Xw)P(w)max logi=1NP(xiw)+logP(w) maxi=1NlogP(xiw)+logP(w)max(i=1N2σ2((yif(xi))2))2σ02wTwmin(i=1N(yif(xi))2)+σ02σ2w22
λ = σ 2 σ 0 2 , 则 M A P 为 L S E + L 2 \lambda=\frac{\sigma^2}{\sigma_0^2},则MAP为LSE+L2 λ=σ02σ2MAPLSE+L2

六、L1 VS L2

L1 VS L2

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值