L1正则化的线性模型——套索回归

最新推荐文章于 2024-07-27 15:34:02 发布

爱却晚秋�

最新推荐文章于 2024-07-27 15:34:02 发布

阅读量2.3k

点赞数 2

分类专栏：机器学习文章标签： sklearn 机器学习 python

本文链接：https://blog.csdn.net/qq_52558996/article/details/120207565

版权

机器学习专栏收录该内容

20 篇文章 5 订阅

订阅专栏

本文介绍了套索回归的基本原理，它通过L1正则化实现特征选择，使得部分特征系数为0。在实战中，套索回归在糖尿病数据集上的表现欠佳，通过调整alpha参数可以改善模型复杂度。降低alpha值可以提高模型表现，但过低可能导致过拟合。套索回归适用于特征过多且仅需少量关键特征的情况，对于模型解释性有优势。总结中提到，弹性网模型结合了套索回归和岭回归，但在实际应用中可能需要调节两个正则化参数。

摘要由CSDN通过智能技术生成

1.套索回归的原理：

和岭回归一样，套索回归也会将系数限制在非常接近0的范围内，但是它限制的方式稍微有些不同，我们称之为L1正则化。与L2正则化不同的是，L1正则化会导致在使用套索回归的时候，有一部分特征的系数会正好等于0.也就是说，有一部分特征会彻底被模型忽略掉，这也可以看成是模型对特征进行自动选择的一种方式。把一部分系数变成0有助于让模型更容易理解，而且可以突出体现模型中最重要的那些特征。

2.套索回归实战：

import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
#载入糖尿病情数据集
X,y=load_diabetes().data,load_diabetes().target
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)
#导入岭回归
from sklearn.linear_model import Lasso
#使用岭回归对数据进行拟合
lasso=Lasso().fit(X_train,y_train)
print('训练集得分：{}'.format(lasso.score(X_train,y_train)))
print('测试集得分：{}'.format(lasso.score(X_test,y_test)))
print('套索回归使用的特征数量：{}'.format(np.sum(lasso.coef_!=0)))

请添加图片描述
结果分析：
这里我们看到，套索回归在训练数据集和测试数据集的得分都相当糟糕。这意味着我们的模型发生了欠拟合的问题，而且你会发现，在十个特征里，套索回归只用了其中的2个。与岭回归类似，套索回归也有一个正则化参数alpha，用来控制特征变量系数被约束到0的强度。

3.套索回归的参数调节：

在上面的例子里，我们使用了alpha参数的默认值1，为了降低欠拟合的程度，我们可以试着降低alpha的值，与此同时，我们还需要增加最大迭代次数(max——iter)的默认设置。

import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
#载入糖尿病情数据集
X,y=load_diabetes().data,load_diabetes().target
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)
#导入岭回归
from sklearn.linear_model import Lasso
#使用岭回归对数据进行拟合
lasso=Lasso(alpha=0.1,max_iter=100000).fit(X_train,y_train)
print('训练集得分：{}'.format(lasso.score(X_train,y_train)))
print('测试集得分：{}'.format(lasso.score(X_test,y_test)))
print('套索回归使用的特征数量：{}'.format(np.sum(lasso.coef_!=0)))

请添加图片描述
结果分析：
从结果上来看，降低alpha值可以拟合出更复杂的模型，从而在训练数据集和测试数据集都难获得良好的表现，相对岭回归，套索回归的表现还要更好一些，而且它只用了10个特征中的7个，这一点也会使模型更容易被人理解。
但是，如果我们把alpha设置的太低，就等于把正则化的效果去处了，那么模型就可能会像线性回归一样，出现过拟合的问题。