最大似然法和最小二乘法,最大后验法之间的关系

内容导读:
1.最大似然法
2.最小二乘法
3.最大后验法
4.最大似然法和最小二乘法的统一
5.最大似然法和最大后验法的关系

一.最大似然法

最大似然法认为,我们多次观察到的结果就是最可能发生的结果,如我们抛一百次硬币,前99次抛的都是带数字的一面朝上,假定带数字面为正面,那么第100次抛硬币时,正面朝上的概率是多少呢?
按照正常概率来讲,如果此硬币是正常硬币,那么第100次抛出时正面朝上的概率为1/2;
然而在最大似然法中,前99次抛出的都是正面朝上,那么第100次抛出时,正面朝上的概率则为1.
即,最大似然法认为,我们观察到的样本概率最大参数即为整体分布的参数.
在上次的LR文章中,我们知道了最大似然的假设函数为: P ( y ∣ x ; θ ) = h θ ( x ) y ( 1 − h θ ( x ) ) 1 − y P(y∣x;θ)=h _{θ} (x) ^{y} (1−h θ (x)) ^{1−y} P(yx;θ)=hθ(x)y(1hθ(x))1y
其损失函数 L ( θ ) = log ⁡ P ( Y ∣ X , θ ) = ∑ i log ⁡ P ( y i ∣ x i , θ ) L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta) L(θ)=logP(YX,θ)=ilogP(yixi,θ)

二.最小二乘法

最小二乘法是数学家高斯在预测行星轨道时提出的。
它的核心思想是:构造误差平方和函数,对其求偏导,让误差平方和函数取得最小值的参数就是模型参数。
最小二乘法本质上是一种参数估计方法,它既可以用于线性回归模型的参数估计,也可以用于非线性回归模型(如曲线模型)的参数估计中。可以说最小二乘法=最小误差平方和参数估计方法,但最小二乘法≠线性回归。

三.最大后验法

前期中,我们讲过最小二乘法正则化的两种形式:
L1正则下的最小二乘估计:是曼哈顿距离的最优解,也称Lasso回归:

min ⁡ θ ∑ i ( y i − f θ ( x i ) ) 2 + λ ∣ θ ∣ \min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda|\theta|}} minθi(yifθ(xi))2+λθ

L2正则下的最小二乘估计:是欧式距离的最优解,也称Ridge回归:

min ⁡ θ ∑ i ( y i − f θ ( x i ) ) 2 + λ θ 2 \min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda\theta^2}} minθi(yifθ(xi))2+λθ2

Ridge是高斯先验下的最大后验估计,而Lasso是拉普拉斯先验下的最大后验估计。
对于Ridge回归的目标函数,看起来特别像带限制条件的凸优化问题进行拉格朗日变换之后的结果。因此我们反向变回去,还原成带限制条件的凸优化问题,那么就是

min ⁡ θ ∑ i ( y i − f θ ( x i ) ) 2 且 θ 2 ≤ r \min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 \theta^2 \le r minθi(yifθ(xi))2θ2r

同理,Lasso回归可以变化为

min ⁡ θ ∑ i ( y i − f θ ( x i ) ) 2 且 ∣ θ ∣ ≤ r \min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 |\theta|\le r minθi(yifθ(xi))2θr
用图像表示为:
在这里插入图片描述
左图为Ridge回归,右图为Lasso回归.

四.最大似然法和最小二乘法的统一

我们知道,模型的似然函数是

L ( θ ) = log ⁡ P ( Y ∣ X , θ ) = ∑ i log ⁡ P ( y i ∣ x i , θ ) L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta) L(θ)=logP(YX,θ)=ilogP(yixi,θ)

同时,有 y i ∼ N ( f θ ( x i ) , σ 2 ) y_{i} \sim {N}(f_\theta(x_{i}), \sigma^{2}) yiN(fθ(xi),σ2)
那么可以得到

L ( θ ) = − 1 2 σ 2 ∑ i ( y i − f θ ( x i ) ) 2 − N log ⁡ σ − N 2 log ⁡ 2 π L(\theta)= -\frac{1}{2\sigma^2}\sum_{i}(y_i-f_\theta(x_i))^2-N\log\sigma-\frac{N}{2}\log2\pi L(θ)=2σ21i(yifθ(xi))2Nlogσ2Nlog2π

因此,去掉后面两项不包含 θ \theta θ的常数项,模型参数 θ \theta θ 的最大似然估计 max ⁡ θ L ( θ ) \max_\theta {L(\theta)} maxθL(θ)
就等价于最小二乘估计 min ⁡ θ ∑ i ( y i − f θ ( x i ) ) 2 \min_\theta {\sum_i(y_i-f_\theta(x_i))^2} minθi(yifθ(xi))2

在总体或样本参数服从于正态分布的情况下,最大似然法和最小二乘法会趋于统一.
最小二乘(Least Square)的解析解可以用Gaussian分布以及最大似然估计求得

五.最大似然法和最大后验法的关系

f ( x ) = ∑ j = 1 d x j w j + ε = x w T + ε f(x)=\sum\limits_{j=1}^d{{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilon f(x)=j=1dxjwj+ε=xwT+ε

其中 x ∈ R 1 × d , w ∈ R 1 × d x\in{R^{1{\times}{d}}},w\in{R^{1{\times}{d}}} xR1×d,wR1×d,误差 ε ∈ R \varepsilon{\in}{R} εR

当前已知 X = ( x 1 . . . x n ) T ∈ R n × d , y ∈ R n × 1 X={({x_1}...{x_n})^T}{\in}{R^{n{\times}{d}}},y{\in}{R^{n{\times}{1}}} X=(x1...xn)TRn×d,yRn×1,如何求w呢?
1.假设 ε i ∼ N ( 0 , σ 2 ) , w i ∼ N ( 0 , τ 2 ) {\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}),{w_i}{\sim}N(0,{\tau^2}) εiN(0,σ2)wiN(0,τ2),那么用最大后验估计推导:

arg ⁡ max ⁡ w L ( w ) = ln ⁡ ∏ i = 1 n 1 2 π σ exp ⁡ ( − 1 2 ( y i − x i w T σ ) 2 ) . ∏ j = 1 d 1 2 π τ exp ⁡ ( − 1 2 ( w j τ ) 2 ) − − − − ( 12 ) \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{\sqrt{2\pi}\tau}}\exp}(-\frac{1}{2}{(\frac{{{w_j}}}{\tau})^2}) ---- (12) argmaxwL(w)=lni=1n2π σ1exp(21(σyixiwT)2).j=1d2π τ1exp(21(τwj)2)(12)

arg ⁡ max ⁡ w L ( w ) = − 1 2 σ 2 ∑ i = 1 n ( y i − x i w T ) 2 − 1 2 τ 2 ∑ j = 1 d w j 2 − n ln ⁡ σ 2 π − d ln ⁡ τ 2 π − − − − ( 13 ) \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}----(13) argmaxwL(w)=2σ21i=1n(yixiwT)22τ21j=1dwj2nlnσ2π dlnτ2π (13)

arg ⁡ min ⁡ w f ( w ) = ∑ i = 1 n ( y i − x i w T ) 2 + λ ∑ j = 1 d w j 2 = ∣ ∣ y − X w T ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 2 2 − − − − ( 14 ) \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2----(14) argminwf(w)=i=1n(yixiwT)2+λj=1dwj2=yXwT22+λw22(14)

公式(14)式就是Ridge回归.

2.假设 ε i ∼ N ( 0 , σ 2 ) , w i ∼ L a p a c e ( 0 , b ) {\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}),{w_i}{\sim}Lapace(0,b) εiN(0,σ2)wiLapace(0,b),同样采用后验估计推导:

arg ⁡ max ⁡ w L ( w ) = ln ⁡ ∏ i = 1 n 1 2 π σ exp ⁡ ( − 1 2 ( y i − x i w T σ ) 2 ) . ∏ j = 1 d 1 2 b exp ⁡ ( − ∣ w j ∣ τ ) − − − − ( 15 ) \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{2b}}\exp}(-\frac{{\left|{{w_j}}\right|}}{\tau}) ----(15) argmaxwL(w)=lni=1n2π σ1exp(21(σyixiwT)2).j=1d2b1exp(τwj)(15)

arg ⁡ max ⁡ w L ( w ) = − 1 2 σ 2 ∑ i = 1 n ( y i − x i w T ) 2 − 1 2 τ 2 ∑ j = 1 d ∣ w j ∣ − n ln ⁡ σ 2 π − d ln ⁡ τ 2 π − − − − ( 16 ) \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}} ---- (16) argmaxwL(w)=2σ21i=1n(yixiwT)22τ21j=1dwjnlnσ2π dlnτ2π (16)

arg ⁡ min ⁡ w f ( w ) = ∑ i = 1 n ( y i − x i w T ) 2 + λ ∑ j = 1 d ∣ w j ∣ = ∣ ∣ y − X w T ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 1 − − − − ( 17 ) \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}----(17) argminwf(w)=i=1n(yixiwT)2+λj=1dwj=yXwT22+λw1(17)

公式(17)为Lasso回归.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值