Lasso回归的坐标下降法推导

原创 2017年08月22日 21:38:15

目标函数

Lasso相当于带有L1正则化项的线性回归。先看下目标函数:RSS(w)+λw1=Ni=0(yiDj=0wjhj(xi))2+λDj=0|wj|
这个问题由于正则化项在零点处不可求导,所以使用非梯度下降法进行求解,如坐标下降法或最小角回归法。

坐标下降法

本文介绍坐标下降法。
坐标下降算法每次选择一个维度进行参数更新,维度的选择可以是随机的或者是按顺序。
当一轮更新结束后,更新步长的最大值少于预设阈值时,终止迭代。

下面分为两部求解

RSS偏导

wjRSS(w)=2i=1Nhj(xi)(yij=0Dwjhj(xi))=2i=1Nhj(xi)(yikjwkhk(xi)wjhj(xi))=2i=1Nhj(xi)(yikjwkhk(xi))+2wji=1Nhj(xi)2

下面做一下标记化简
ρj=Ni=1hj(xi)(yikjwkhk(xi))
zj=Ni=1hj(xi)2
上式化简为wjRSS(w)=2ρj+2wjzj

正则项偏导

次梯度方法(subgradient method)是传统的梯度下降方法的拓展,用来处理不可导的凸函数。
这里写图片描述

λwj|wj|=λ[λ,λ]λwj<0wj=0wj>0

整体偏导数

λwj[lasso cost]=2zjwj2ρj+λ[λ,λ]λwj<0wj=0wj>0=2zjwj2ρjλ[2ρjλ,2ρj+λ]2zjwj2ρj+λwj<0wj=0wj>0

要想获得最有解,令

λwj[lasso cost]=0
解得,

w^j=(ρj+λ/2)/zj0(ρjλ/2)/zjρj<λ/2ρj in [λ/2,λ/2]ρj>λ/2

这里写图片描述

伪代码

预计算zj=Ni=1hj(xi)2
初始化参数w(全0或随机)
循环直到收敛:

for j = 0,1,…D
    ρj=Ni=1hj(xi)(yikjwkhk(xi))
    update wj
选择变化幅度最大的维度进行更新

概率解释

拉普拉斯分布

随机变量XLaplace(μ,b),其中μ是位置参数,b>0是尺度参数。
概率密度函数为
f(x|μ,b=12bexp(|xμ|b)

MAP推导

假设ϵiN(0,σ2)wiLaplace(0,1λ)

argmaxwL(w)=likelihood×prior=P(x,y|w)×P(w)=lni=1n1σ2πexp(12(yixiwTσ)2)j=1dλ2exp(λ|wj|)=lnn+lnd=nln+dln=nlnexp(12(yixiwTσ)2)nlnσ2π+dlnexp(λ|wj|)dln2λ=n12(yixiwTσ)2nlnσ2π+d(λ|wj|)dln2λ=12σ2n(yixiwT)2λd|wj|nlnσ2πdln2λ=12σ2n(yixiwT)2λd|wj|+constant

等价于
argminwf(w)=i=1n(yixiwT)2+λj=1d|wj|=||yXwT||22+λ||w||1

版权声明:本文为博主原创文章,未经博主允许不得转载。

SparkML之回归(二)岭回归和Lasso阐述及OLS,梯度下降比较

岭回归(RidgeRegression)它的上一级称之为Tikhonov regularization,是以Andrey Tikhonov命名的。 Lasso(least absolute shrin...

LASSO与redge回归区别 L1 L2范数之间的区别

转载自:http://blog.csdn.net/sinat_26917383/article/details/52092040 一、正则化背景 监督机器学习问题无...

(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)

首先介绍一个算法:coordinate-wise minimization 问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小...

R语言任务视图:机器学习与统计学…

机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的扩展包大概包括以下几个方面: 神经网络(Neural Networks) : 单隐含层神经网络在nnet 包(与R基础包一同发布)中实现。...

Lasso回归算法: 坐标轴下降法与最小角回归法小结

原文 :http://www.cnblogs.com/pinard/p/6018889.html 前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结。里面对线程回归的正则化也做了一个初步...
  • bbbeoy
  • bbbeoy
  • 2017年05月19日 11:55
  • 587

Ridge回归、Lasso回归、坐标下降法、最小角回归

Ridge回归、Lasso回归、坐标下降法、最小角回归

Lasso Regression

Lasso Regression标签(空格分隔): 监督学习在数据挖掘和机器学习算法的模型建立之初,为了尽量的减少因缺少重要变量而出现的模型偏差问题,我们通常会尽可能的多的选择自变量。但是在实际建模的...
  • daunxx
  • daunxx
  • 2016年06月07日 15:10
  • 12910

lasso算法及其实现

 缘起 这篇博客的想法来源于知乎的一个关于多元线性回归的变量选择问题。 从该问题的提问描述,以及回答中看出,很多人在做变量选择时,眼光依然局限于R 2  R2或者Ajusted−R 2  A...
  • mousever
  • mousever
  • 2016年01月13日 21:38
  • 11018

Lasso回归的原理推导

学习Lasso的时候借来学习的bolog,感觉很棒,记录下

Lasso回归算法: 坐标轴下降法与最小角回归法小结

前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结。里面对线程回归的正则化也做了一个初步的介绍。提到了线程回归的L2正则化-Ridge回归,以及线程回归的L1正则化-Lasso回归。但是对...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Lasso回归的坐标下降法推导
举报原因:
原因补充:

(最多只允许输入30个字)