Lasso算法理论介绍

先看一波过拟合:


图中,红色的线存在明显的过拟合,绿色的线才是合理的拟合曲线,为了避免过拟合,我们可以引入正则化。


下面可以利用正则化来解决曲线拟合过程中的过拟合发生,存在均方根误差也叫标准误差,即为√[∑di^2/n]=Re,n为测量次数;di为一组测量值与真值的偏差。


实际考虑回归的过程中,我们需要考虑到误差项,


这个和简单的线性回归的公式相似,而在正则化下来优化过拟合这件事情的时候,会加入一个约束条件,也就是惩罚函数:


这边这个惩罚函数有多种形式,比较常用的有l1,l2,大概有如下几种:


讲一下比较常用的两种情况,q=1和q=2的情况:

q=1,也就是今天想讲的lasso回归,为什么lasso可以控制过拟合呢,因为在数据训练的过程中,可能有几百个,或者几千个变量,再过多的变量衡量目标函数的因变量的时候,可能造成结果的过度解释,而通过q=1下的惩罚函数来限制变量个数的情况,可以优先筛选掉一些不是特别重要的变量,见下图:


作图只要不是特殊情况下与正方形的边相切,一定是与某个顶点优先相交,那必然存在横纵坐标轴中的一个系数为0,起到对变量的筛选的作用。


q=2的时候,其实就可以看作是上面这个蓝色的圆,在这个圆的限制下,点可以是圆上的任意一点,所以q=2的时候也叫做岭回归,岭回归是起不到压缩变量的作用的,在这个图里也是可以看出来的。


lasso回归:

lasso回归的特色就是在建立广义线型模型的时候,这里广义线型模型包含一维连续因变量、多维连续因变量、非负次数因变量、二元离散因变量、多元离散因变,除此之外,无论因变量是连续的还是离散的,lasso都能处理,总的来说,lasso对于数据的要求是极其低的,所以应用程度较广;除此之外,lasso还能够对变量进行筛选和对模型的复杂程度进行降低。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。 复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合(Overfitting)。 对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。 更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。


lasso的复杂程度由λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而最终获得一个变量较少的模型。除此之外,另一个参数α来控制应对高相关性(highly correlated)数据时模型的性状。 LASSO回归α=1,Ridge回归α=0,这就对应了惩罚函数的形式和目的。我们可以通过尝试若干次不同值下的λ,来选取最优λ下的参数,还可以结合CV选择最优秀的模型。

##读取数据

setwd("~/Desktop")

library(glmnet)
train_origin<-read.table('trian.txt',header = T,fill = T)
test_origin<-read.table('test.txt',header = T,fill = T)
train_test1<-train_origin
train_test1<-train_test1[,-9]
train_test1$tag<-as.factor(train_test1$tag)
train_test1$risk_level<-as.factor(train_test1$risk_level)
x<-train_test1[,3:11]
y<-train_test1[,2]

## one hot encoding
x1<-model.matrix(~., x)

通常数据中会存在离散点,而lasso在R里面是通过数值矩阵来做输入的,所以需要对原数据做一步预处理,不然这边会抛错误;除此之外,如果数据之间差别的数量级较大,还需要进行标准化,R里面也是可以进行处理的,这边就不赘述了,glmnet()函数中添加参数standardize = TRUE来实现,scale()函数也可以实现,自行选择即可。

##模型训练

model = glmnet(x1, y, family="binomial", nlambda=50, alpha=1)

family里面是指选择函数的类型:

familyexplation
gaussianunivariate
mgaussianmultivariate
poissoncount
binomialbinary
multinomialcategory

lambda是指随机选择λ,做lambda个模型;alpha是上述讲到的α,选择惩罚函数,正常情况下,1是lasso,0是岭回归


这边模型拓展可以交叉检验一下,有内置的函数:

cvmodel = cv.glmnet(x1, y, family = "binomial", type.measure = "class",nfolds=10)

这边会多出来一个type.measure,这个type.measure是指期望最小化的目标参量是什么,换句话说,就是衡量这个模型的指标函数是啥

type.measuredetails
deviance-2倍的Log-likelihood
msemean squred error
maemean absolute error
classmissclassification error
auc area under the ROC curve
比较常用的是auc,这个就是现在比较主流的衡量一个模型好坏的roc所衍生出来的一个值;我们这边用的是class,也就是模型错误分配的概率,结合我这次业务开发的实际业务场景,这个更合适一点; nfolds是指folds数目,也可以通过foldid数来控制每个fold里面的数据数量。


对于glmnet,可以通过plot(model)来观察每个自变量的变化轨迹,cv.glmnet可以通过plot(cvmodel)

举个plot(cvmodel)的例子:


可以通过c(cvfit$lambda.min, cvfit$lambda.1se)来看在所有的λ值中,得到最小目标函数type.measure均值的cvfit$lambda.min,以及其所对应的λ值cvfit$lambda.1se。


我们可以print(model),在实际的选择模型中λ值的过程里,存在三个指标:df:自由度, %Dev:残差被解释的占比,也就是模型的好坏程度,Lambda也就是λ值所对应的值,然后我们可以通过coef(fit, s=c(fit$lambda[35],0.002))得出当时模型所对应的系数。


最后,讲一下elastic net

elastic net融合了l1范数和l2范数两种正则化的方法,上面的岭回归和lasso回归都可以看做它的特例:


elastic net对于p远大于n,或者严重的多重共线性情况有明显的效果,很好理解,当alpha接近1时,elastic net表现很接近lasso,一般来说,elastic net是岭回归和lasso的很好的折中,当alpha从0变化到1,目标函数的稀疏解(部分变量的系数为0)也从0单调增加到lasso的稀疏解。


之前看到有人这样总结变量选择,可以拿出来和大家分享一下:
1)子集选择 这是传统的方法,包括逐步回归和最优子集法等,对可能的部分子集拟合线性模型,利用判别准则 (如AIC,BIC,Cp,调整R2 等)决定最优的模型
2)收缩方法(shrinkage method) 收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。( 岭回归:消除共线性 模的平方处理 Lasso回归:压缩变量,起降维作用 模处理
(3)维数缩减 主成分回归(PCR)和偏最小二乘回归(PLS)的方法。把p个预测变量投影到m维空间(m<p),利用投影得到的不相关的组合建立线性模型。


如果有任何算法、代码疑问都欢迎通过公众号发消息给我哦,已经给你们准备好资料大礼包了


Lasso,全称Least Absolute Shrinkage and Selection Operator,是一种常用的回归算法。它在线性回归的基础上引入了L1正则化项,通过对系数进行约束,使得模型的权重更加稀疏,即对不重要的特征进行了去除或减弱。 Lasso的优点在于它能够在高维数据中进行特征选择,避免了过拟合问题。通过减少不重要特征的权重,它能够更好地处理多重共线性的情况。Lasso算法的目标函数是通过最小化均方误差和L1正则化项的和来实现的。 Lasso算法在实际应用中具有广泛的应用。首先,由于Lasso能够进行特征选择,它在特征工程中非常有用。在处理具有大量特征的数据时,Lasso能够帮助我们找到最重要的特征,从而简化模型,提高预测准确率。其次,Lasso也用于稀疏信号恢复,包括图像压缩和恢复、语音处理等领域。另外,Lasso也可以用于分类问题,例如在基因表达数据中的药物响应预测。 然而,Lasso也存在一些限制。首先,由于L1正则化的特性,Lasso在存在高度相关特征的情况下可能会选择其中一个特征,并将其系数置为零,而忽略其他高度相关的特征。其次,Lasso是一个线性模型,对于非线性问题可能效果较差。此外,Lasso对于数据中存在较多噪声的情况可能表现不佳。 总体而言,Lasso算法是一种强大的回归算法,在特征选择和稀疏信号恢复等领域有广泛的应用。但在具体应用时,需要根据问题的特点和数据的特征来进行合理的选择和调整。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值