机器学习笔记:LS、Ridge、Lasso、最小一乘法的选择过程推导

机器学习笔记:LS、Rddge、Lasso、最小一乘法推导

基础概念

假设 w \mathbf w w是一件事情的原因,而 y y y是一件事情的结果。
先验概率: p ( w ) p(\mathbf w) p(w)代表原因发生的概率
似然函数验概率: L ( w ) = p ( y ∣ w ) L(\mathbf w) = p(y|\mathbf w) L(w)=p(yw)代表已知原因的情况下由因推出相应结果的概率
后验概率: p ( w ∣ y ) p(\mathbf w|y) p(wy)代表已知结果的情况下由果推因的概率
贝叶斯公式: p ( w ∣ y ) = p ( y ∣ w ) p ( w ) p ( y ) p(\mathbf w|y) = \dfrac{p(y|\mathbf w)p(\mathbf w)}{p(y)} p(wy)=p(y)p(yw)p(w)
最大似然估计(Maximum Likelihood, ML): arg max ⁡ w L ( w ) = p ( y ∣ w ) \argmax\limits_{\mathbf w}L(\mathbf w) = p(y|\mathbf w) wargmaxL(w)=p(yw)
最大后验估计(Maxaposterio , MAP): arg max ⁡ w p ( w ∣ y ) = p ( y ∣ w ) p ( w ) p ( y ) \argmax\limits_{\mathbf w}p(\mathbf w|y) = \dfrac{p(y|\mathbf w)p(\mathbf w)}{p(y)} wargmaxp(wy)=p(y)p(yw)p(w),由于待估计参数是 w \mathbf w w,分母项与 w \mathbf w w无关,因此可以省略得到最大后验估计问题为 arg max ⁡ w p ( y ∣ w ) p ( w ) = L ( w ) p ( w ) \argmax\limits_{\mathbf w}p(y|\mathbf w)p(\mathbf w)=L(\mathbf w)p(\mathbf w) wargmaxp(yw)p(w)=L(w)p(w),可以看到最大后验估计额外需要待估计参数的先验分布。

线性回归问题

y = ∑ j = 1 d = x T w + ϵ y=\sum_{j=1}^d = {\mathbf x}^T{\mathbf w}+\epsilon y=j=1d=xTw+ϵ
其中 x ∈ R d × 1 {\mathbf x} \in {\mathbb R}^{d\times 1} xRd×1为输入参数, w ∈ R d × 1 {\mathbf w} \in {\mathbb R}^{d\times 1} wRd×1为线性回归参数, d d d为输入参数特征维度。 ϵ \epsilon ϵ为噪声扰动。假设线性回归的训练数据总共有 n n n个,即 X = [ x 1 , ⋯   , x n ] ∈ R d × n {\mathbf X}=[{\mathbf x_1},\cdots,{\mathbf x_n}]\in {\mathbb R}^{d\times n} X=[x1,,xn]Rd×n,则上式可以表达为
y = X T w + ϵ {\mathbf y}={\mathbf X}^T{\mathbf w}+{\mathbb \epsilon} y=XTw+ϵ
其中 ϵ = [ ϵ 1 , ⋯   , ϵ n ] T ∈ R d × 1 {\mathbf \epsilon}=[\epsilon_1,\cdots,\epsilon_n]^T\in {\mathbb R}^{d\times 1} ϵ=[ϵ1,,ϵn]TRd×1,这里没有考虑偏置项,这是因为偏置项也可以建模进 w {\mathbf w} w中作为第一项并且 x {\mathbf x} x的第一项为1代表将偏置加入。

采用什么方法来完成这个回归有许多种方式,常见的有LS、最小一乘法、Ridge、Lasso方法,如何选取这些方法与偏差 ϵ \epsilon ϵ的分布假设有关,同时还根据选择不同准则例如选择最大似然准则或是最大后验准则有关,也与待估计参数 w {\mathbf w} w的先验分布假设有关。

LS最小二乘法推导

假设误差 ϵ i ∼ N ( 0 , σ 2 ) \epsilon_i \sim N\left( {0},\sigma^2 \right) ϵiN(0,σ2)是正态分布,则 y i ∼ N ( x i T w , σ 2 ) y_i \sim N\left( {\mathbf x}_i^T{\mathbf w},\sigma^2 \right) yiN(xiTw,σ2)。采用最大似然准则(对数似然),则问题可以表述为
arg max ⁡ w L ( w ) = l n ( p ( y ∣ w ) ) = l n ∏ i = 1 n 1 σ 2 π e x p ( − 1 2 ( y i − x i T w σ ) 2 ) = − 1 2 σ 2 ∑ i = 1 n ∣ y i − x i T w ∣ 2 − n l n σ 2 π = − 1 2 σ 2 ∥ y − X T w ∥ 2 2 − n l n σ 2 π \argmax\limits_{\mathbf w}L(\mathbf w) = {\rm ln}(p(y|\mathbf w))= {\rm ln}\prod_{i=1}^n\frac{1}{\sigma\sqrt{2\pi}}{\rm exp}\left(-\frac{1}{2} \left( \frac{y_i-{\mathbf x}_i^T{\mathbf w}}{\sigma} \right)^2 \right)\\ =-\frac{1}{2\sigma^2}\sum_{i=1}^n\left| y_i-{\mathbf x}_i^T{\mathbf w} \right|^2-n{\rm ln}\sigma\sqrt{2\pi}\\ =-\frac{1}{2\sigma^2}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_2^2-n{\rm ln}\sigma\sqrt{2\pi} wargmaxL(w)=ln(p(yw))=lni=1nσ2π 1exp(21(σyixiTw)2)=2σ21i=1nyixiTw2nlnσ2π =2σ21yXTw22nlnσ2π
等效于一个最小二乘问题
arg min ⁡ w ∥ y − X T w ∥ 2 2 \argmin\limits_{\mathbf w}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_2^2 wargminyXTw22

最小一乘法

假设误差 ϵ i ∼ L a p l a c e ( 0 , σ ) \epsilon_i \sim Laplace\left( {0},\sigma \right) ϵiLaplace(0,σ)是拉普拉斯分布,则 y i ∼ L a p l a c e ( x i T w , σ ) y_i \sim Laplace\left( {\mathbf x}_i^T{\mathbf w},\sigma \right) yiLaplace(xiTw,σ)。采用最大似然准则(对数似然),则问题可以表述为
arg max ⁡ w L ( w ) = l n ( p ( y ∣ w ) ) = l n ∏ i = 1 n 1 2 σ e x p ( − ∣ y i − x i T w ∣ σ ) = − 1 σ ∑ i = 1 n ∣ y i − x i T w ∣ − n l n 2 σ = − 1 σ ∥ y − X T w ∥ 1 − n l n 2 σ \argmax\limits_{\mathbf w}L(\mathbf w) = {\rm ln}(p(y|\mathbf w))= {\rm ln}\prod_{i=1}^n\frac{1}{2\sigma}{\rm exp}\left(- \frac{\left|y_i-{\mathbf x}_i^T{\mathbf w}\right|}{\sigma} \right) \\ =-\frac{1}{\sigma}\sum_{i=1}^n\left| y_i-{\mathbf x}_i^T{\mathbf w} \right|-n{\rm ln}2\sigma\\ =-\frac{1}{\sigma}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_1-n{\rm ln}2\sigma wargmaxL(w)=ln(p(yw))=lni=1n2σ1exp(σyixiTw)=σ1i=1nyixiTwnln2σ=σ1yXTw1nln2σ
等效于一个最小一乘问题
arg min ⁡ w ∥ y − X T w ∥ 1 \argmin\limits_{\mathbf w}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_1 wargminyXTw1

Ridge

假设误差 ϵ i ∼ N ( 0 , σ 1 2 ) \epsilon_i \sim N\left( {0},\sigma_1^2 \right) ϵiN(0,σ12)是正态分布,则 y i ∼ N ( x i T w , σ 2 2 ) y_i \sim N\left( {\mathbf x}_i^T{\mathbf w},\sigma_2^2 \right) yiN(xiTw,σ22)。采用最大后验估计,假设先验信息是待估计参数 w i ∼ N ( 0 , σ 2 ) {w}_i \sim N\left( {0},\sigma^2 \right) wiN(0,σ2)是正态分布,则问题可以表述为
arg max ⁡ w L ( w ) = l n ( p ( y ∣ w ) p ( w ) ) = l n ∏ i = 1 n 1 σ 1 2 π e x p ( − 1 2 ( y i − x i T w σ 1 ) 2 ) ⋅ ∏ j = 1 d 1 σ 2 2 π e x p ( − 1 2 ( w j σ 2 ) 2 ) = − 1 2 σ 1 2 ∑ i = 1 n ∣ y i − x i T w ∣ 2 − n l n σ 1 2 π − 1 2 σ 2 2 ∑ j = 1 d ∣ w j ∣ 2 − d l n σ 2 2 π = − 1 2 σ 1 2 ∥ y − X T w ∥ 2 2 − 1 2 σ 2 2 ∥ w ∥ 2 2 − n l n σ 1 2 π − d l n σ 2 2 π \argmax\limits_{\mathbf w}L(\mathbf w) = {\rm ln}(p(y|\mathbf w)p(\mathbf w))\\ = {\rm ln}\prod_{i=1}^n\frac{1}{\sigma_1\sqrt{2\pi}}{\rm exp}\left(-\frac{1}{2} \left( \frac{y_i-{\mathbf x}_i^T{\mathbf w}}{\sigma_1} \right)^2 \right)\cdot \prod_{j=1}^d\frac{1}{\sigma_2\sqrt{2\pi}}{\rm exp}\left(-\frac{1}{2} \left( \frac{w_j}{\sigma_2} \right)^2 \right)\\ =-\frac{1}{2\sigma_1^2}\sum_{i=1}^n\left| y_i-{\mathbf x}_i^T{\mathbf w} \right|^2-n{\rm ln}\sigma_1\sqrt{2\pi}-\frac{1}{2\sigma_2^2}\sum_{j=1}^d\left| w_j\right|^2-d{\rm ln}\sigma_2\sqrt{2\pi}\\ =-\frac{1}{2\sigma_1^2}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_2^2-\frac{1}{2\sigma_2^2}\| {\mathbf w} \|_2^2-n{\rm ln}\sigma_1\sqrt{2\pi}-d{\rm ln}\sigma_2\sqrt{2\pi} wargmaxL(w)=ln(p(yw)p(w))=lni=1nσ12π 1exp(21(σ1yixiTw)2)j=1dσ22π 1exp(21(σ2wj)2)=2σ121i=1nyixiTw2nlnσ12π 2σ221j=1dwj2dlnσ22π =2σ121yXTw222σ221w22nlnσ12π dlnσ22π
等效于一个Ridge回归问题
arg min ⁡ w ∥ y − X T w ∥ 2 2 + λ ∥ w ∥ 2 2 \argmin\limits_{\mathbf w}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_2^2+\lambda\| {\mathbf w} \|_2^2 wargminyXTw22+λw22

Lasso

假设误差 ϵ i ∼ N ( 0 , σ 2 ) \epsilon_i \sim N\left( {0},\sigma^2 \right) ϵiN(0,σ2)是正态分布,并且采用最大后验估计,我们假设先验信息是待估计参数 w i ∼ L a p l a c e ( 0 , σ ) {w}_i \sim Laplace\left( {0},\sigma \right) wiLaplace(0,σ)是拉普拉斯分布分布。

假设误差 ϵ i ∼ N ( 0 , σ 1 2 ) \epsilon_i \sim N\left( {0},\sigma_1^2 \right) ϵiN(0,σ12)是正态分布,则 y i ∼ N ( x i T w , σ 2 2 ) y_i \sim N\left( {\mathbf x}_i^T{\mathbf w},\sigma_2^2 \right) yiN(xiTw,σ22)。采用最大后验估计,假设先验信息是待估计参数 w i ∼ L a p l a c e ( 0 , σ ) {w}_i \sim Laplace\left( {0},\sigma \right) wiLaplace(0,σ)是拉普拉斯分布分布,则问题可以表述为
arg max ⁡ w L ( w ) = l n ( p ( y ∣ w ) p ( w ) ) = l n ∏ i = 1 n 1 σ 1 2 π e x p ( − 1 2 ( y i − x i T w σ 1 ) 2 ) ⋅ ∏ j = 1 d 1 2 σ 2 e x p ( − ∣ w j ∣ σ 2 ) = − 1 2 σ 1 2 ∑ i = 1 n ∣ y i − x i T w ∣ 2 − n l n σ 1 2 π − 1 σ 2 ∑ j = 1 d ∣ w j ∣ − d l n 2 σ 2 = − 1 2 σ 1 2 ∥ y − X T w ∥ 2 2 − 1 σ 2 ∥ w ∥ 1 − n l n σ 1 2 π − d l n 2 σ 2 \argmax\limits_{\mathbf w}L(\mathbf w) = {\rm ln}(p(y|\mathbf w)p(\mathbf w))\\ = {\rm ln}\prod_{i=1}^n\frac{1}{\sigma_1\sqrt{2\pi}}{\rm exp}\left(-\frac{1}{2} \left( \frac{y_i-{\mathbf x}_i^T{\mathbf w}}{\sigma_1} \right)^2 \right)\cdot \prod_{j=1}^d\frac{1}{2\sigma_2}{\rm exp}\left(- \frac{\left| w_j \right|}{\sigma_2} \right)\\ =-\frac{1}{2\sigma_1^2}\sum_{i=1}^n\left| y_i-{\mathbf x}_i^T{\mathbf w} \right|^2-n{\rm ln}\sigma_1\sqrt{2\pi}-\frac{1}{\sigma_2}\sum_{j=1}^d\left| w_j\right|-d{\rm ln}2\sigma_2\\ =-\frac{1}{2\sigma_1^2}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_2^2-\frac{1}{\sigma_2}\| {\mathbf w} \|_1-n{\rm ln}\sigma_1\sqrt{2\pi}-d{\rm ln}2\sigma_2 wargmaxL(w)=ln(p(yw)p(w))=lni=1nσ12π 1exp(21(σ1yixiTw)2)j=1d2σ21exp(σ2wj)=2σ121i=1nyixiTw2nlnσ12π σ21j=1dwjdln2σ2=2σ121yXTw22σ21w1nlnσ12π dln2σ2
等效于一个Lasso问题
arg min ⁡ w ∥ y − X T w ∥ 2 2 + λ ∥ w ∥ 1 \argmin\limits_{\mathbf w}\| {\mathbf y}-{\mathbf X}^T{\mathbf w} \|_2^2+\lambda\| {\mathbf w} \|_1 wargminyXTw22+λw1

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值