【Python机器学习实战】 | Lasso回归和弹性网回归详细分析研究

🎩 欢迎来到技术探索的奇幻世界👨‍💻

📜 个人主页@一伦明悦-CSDN博客

✍🏻 作者简介: C++软件开发、Python机器学习爱好者

🗣️ 互动与支持💬评论      👍🏻点赞      📂收藏     👀关注+

如果文章有所帮助,欢迎留下您宝贵的评论,

点赞加收藏支持我,点击关注,一起进步!

引言

Lasso回归(Lasso Regression)和弹性网回归(Elastic Net Regression)是用于特征选择和正则化的线性回归方法。它们在处理高维数据和解决过拟合问题方面非常有效。以下是对它们的详细解释:

Lasso回归(Lasso Regression):

Lasso回归是一种使用 L1 正则化的线性回归方法。其损失函数由最小化残差平方和与系数绝对值之和的加权和组成。Lasso回归的数学表达式如下:
[ \min_{\beta} \frac{1}{2} \lVert y - X\beta \rVert^2_2 + \alpha \lVert \beta \rVert_1 ]

特点和作用:

  • L1 正则化使得部分系数变为零,实现了特征选择,可以用于稀疏特征选择。
  • 可以处理高维数据,并降低模型的复杂度。
  • 适用于存在多重共线性问题的数据集。

弹性网回归(Elastic Net Regression):

弹性网回归是 Lasso 回归和 Ridge 回归的结合,同时使用 L1 和 L2 正则化项。其损失函数在 Lasso 回归和 Ridge 回归的基础上增加了一个混合比例参数。弹性网回归的数学表达式如下:
[ \min_{\beta} \frac{1}{2n} \lVert y - X\beta \rVert^2_2 + \alpha \rho \lVert \beta \rVert_1 + \frac{\alpha(1-\rho)}{2} \lVert \beta \rVert^2_2 ]

其中,𝛼α 是总的正则化参数,𝜌ρ 是 L1 正则化项在总正则化中的比例。

特点和作用:

  • 组合了 L1 和 L2 正则化的优点,可以克服 Lasso 回归在高相关特征情况下的一些限制。
  • 同时实现了特征选择和模型复杂度控制。
  • 适用于处理高维数据、存在关联特征或存在较强共线性的数据集。

正文

01-读取并展示邮政编码数据集中标签为 3 的部分样本的图像

这段代码实现了以下功能:

  1. 导入必要的模块:

    • 导入 numpy 库,并重命名为 np。
    • 导入 pandas 库,并重命名为 pd。
    • 导入 matplotlib.pyplot 库,并重命名为 plt,同时从 pylab 中导入所有内容(包括 figure、subplot 等)。
    • 导入 matplotlib.cm 库中的 cm 模块,用于颜色映射。
    • 使用 warnings 库来过滤警告信息。
    • 设置 matplotlib 图表显示中文。
    • 导入 sklearn 中的支持向量机模型 svm。
    • 导入 sklearn.linear_model 中的线性模型 LM。
    • 导入 scipy.stats 库,并重命名为 st。
    • 导入 scipy.optimize 库中的 root 和 fsolve 函数。
    • 导入 sklearn.feature_selection 库中的各种特征选择方法。
    • 导入 sklearn.linear_model 中的 Lasso、Ridge 和 ElasticNet 相关函数和类。
  2. 读取名为 ‘邮政编码数据.txt’ 的数据文件,使用空格作为分隔符,且没有列名(header=None)。

  3. 从数据中筛选出标签为 3 的样本,并分别将特征和目标变量提取出来,作为后续分析的数据源。

  4. 设定随机种子为 1,从目标变量 Y 中随机选择 25 个样本的索引。

  5. 创建一个 8x8 的图像,用于展示所选样本的图像。对于每个选定的样本:

    • 将其特征数据转换成 16x16 的图像格式。
    • 在子图中显示灰度图像。
  6. 将绘制的图像保存为文件’4.png’,分辨率设定为 dpi=500。

  7. 最后使用 plt.show() 显示生成的图像。

综上所述,这段代码的主要作用是读取并展示邮政编码数据集中标签为 3 的部分样本的图像,以及使用 matplotlib 和 numpy 进行图像处理和显示。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[data[0]==3]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]
np.random.seed(1)
ids=np.random.choice(len(Y),25)
plt.figure(figsize=(8,8))
for i,item in enumerate(ids):
    img=np.array(X.iloc[item,]).reshape((16,16))
    plt.subplot(5,5,i+1)
    plt.imshow(img,cmap=cm.gray)
plt.savefig("../4.png", dpi=500) 
plt.show()

 运行结果如下图所示:

这段代码的作用如下所述:

  1. 特征选择器初始化和拟合:

    • selector=VarianceThreshold(threshold=0.05) 初始化了一个方差阈值选择器,它用来删除方差低于指定阈值的特征。
    • selector.fit(X) 将该选择器应用于特征数据集 X,以识别并保留方差大于 0.05 的特征。
  2. 输出剩余变量个数:

    • print("剩余变量个数:%d"%len(selector.get_support(True))) 输出剩余的特征个数,即保留下来的特征数量。
  3. 特征变换和逆变换:

    • X = selector.inverse_transform(selector.transform(X)) 使用选择器对 X 进行特征转换和逆转换操作。这一步骤可以理解为删除了方差较低的特征后,将 X 恢复为原始特征空间的数据格式。
  4. 图像展示:

    • 创建一个 8x8 的图像用于展示样本图像。
    • 对于预先随机选择的每个样本 ids
      • 将其特征数据转换成 16x16 的图像格式。
      • 在子图中显示灰度图像。
  5. 保存和显示图像:

    • plt.savefig("../4.png", dpi=500) 将绘制的图像保存为文件’4.png’,设置分辨率为 dpi=500。
    • plt.show() 最后使用 matplotlib 显示生成的图像。

综上所述,这段代码在进行方差阈值特征选择后,重新转换特征数据并展示了处理后的样本图像。通过这种方式,可以在保留数据关键特征的同时,有效地减少数据的维度和复杂性。

 

selector=VarianceThreshold(threshold=0.05)
selector.fit(X)
print("剩余变量个数:%d"%len(selector.get_support(True)))
X=selector.inverse_transform(selector.transform(X))
plt.figure(figsize=(8,8))
for i,item in enumerate(ids):
    img=np.array(X[item,]).reshape((16,16))
    plt.subplot(5,5,i+1)
    plt.imshow(img,cmap=cm.gray)
plt.savefig("../4.png", dpi=500) 
plt.show()

 运行结果如下图所示:

02-利用不同的模型估计器进行特征选择,并展示处理后的样本图像,以便观察特征选择对图像的影响

这段代码的作用如下所述:

  1. 导入必要的模块:

    • 代码从 numpy、pandas、matplotlib.pyplot 等库中导入所需的模块,用于数据处理和可视化。
    • 也导入了机器学习相关模块,如 sklearn 中的 svm、linear_model 等,以及 scipy 中的统计模块和优化算法。
  2. 读取数据并筛选:

    • 从名为 ‘邮政编码数据.txt’ 的数据文件中读取数据,使用空格分隔,无列名。
    • 过滤出标签为 1 或 3 的样本数据,并提取特征 X 和目标变量 Y。
  3. 随机选择样本:

    • 设定随机种子为 1,从目标变量 Y 中随机选择 25 个样本的索引。
  4. 特征选择:

    • 对于每个模型估计器(LogisticRegression 和 SVC with linear kernel):
      • 使用递归特征消除(RFE)选择器,设置要选择的特征数为 80。
      • 对特征数据 X 和目标变量 Y 进行拟合和特征选择。
      • 输出选取的变量重要性排名前5的信息。
      • 对选择后的特征数据进行转换和逆转换。
      • 创建一个 8x8 的图像用于展示处理后的样本图像。
      • 对于预先随机选择的每个样本,将其特征数据转换成 16x16 的图像格式,并在子图中显示灰度图像。
  5. 显示图像:

    • 在每个模型估计器上完成特征选择和图像展示后,使用 plt.show() 分别显示这些图像。
  6. 保存图像:

    • 将最后一个模型估计器的图像保存为文件’4.png’,分辨率设定为 dpi=500。

综上所述,这段代码的主要作用是利用不同的模型估计器进行特征选择,并展示处理后的样本图像,以便观察特征选择对图像的影响。同时,通过保存图像文件,可以进一步对结果进行保存和分享。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[(data[0]==1) | (data[0]==3)]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]
np.random.seed(1)
ids=np.random.choice(len(Y),25)
estimators=[LM.LogisticRegression(),svm.SVC(kernel='linear',random_state=1)]
for estimator in estimators:
    selector=RFE(estimator=estimator,n_features_to_select=80)
    selector.fit(X,Y)
    #print("N_features %s"%selector.n_features_)
    print("变量重要性排名 %s"%selector.ranking_[0:5])
    Xtmp=selector.inverse_transform(selector.transform(X))
    plt.figure(figsize=(8,8))
    for i,item in enumerate(ids):
        img=np.array(Xtmp[item,]).reshape((16,16))
        plt.subplot(5,5,i+1)
        plt.imshow(img,cmap=cm.gray)
    plt.show()
plt.savefig("../4.png", dpi=500)     

运行结果如下图所示: 

03-Lasso回归中的收缩参数alpha和训练误差

这段代码的作用如下所述:

  1. 导入必要的模块:

    • 导入了 numpy、pandas、matplotlib.pyplot 等库,以及 sklearn 中的 svm、linear_model 等模块,用于数据处理、机器学习建模和可视化。
    • 同样地,使用了 matplotlib.cm 进行颜色映射处理,以及 warnings 库来忽略警告信息。
  2. 读取数据并筛选:

    • 从名为 ‘邮政编码数据.txt’ 的文本文件中读取数据,假设数据使用空格分隔且没有列名。
    • 根据数据中第一列的值为 1 或 3 的条件,筛选出符合条件的数据作为分析的数据集。
  3. Lasso 回归建模和分析:

    • 使用 Lasso 回归模型对数据进行拟合和分析。
    • 定义了一系列的 alpha 参数值,包括从 0 到 1 等间隔的20个值,并加入额外的 2 和 3。
    • 初始化一个二维数组 coef 来存储每个 alpha 值对应的回归系数。
    • 对每个 alpha 值,通过 Lasso 回归拟合数据,并计算回归系数和训练误差。
  4. 结果展示:

    • 输出并打印了 alpha=0 时前五个变量的回归系数。
    • 在图形化界面中,绘制了两个子图:
      • 第一个子图展示了不同 alpha 值下每个变量的归一化回归系数变化情况,以及 alpha 参数与回归系数的关系。
      • 第二个子图展示了不同 alpha 值下的训练误差变化情况。
  5. 保存图像:

    • 最后将绘制好的图形保存为文件’4.png’,设定分辨率为 dpi=500。

综上所述,这段代码的主要目的是通过 Lasso 回归模型对数据进行分析和可视化,以研究不同收缩参数(alpha)对回归系数和模型训练误差的影响。保存的图像文件可以进一步用于结果展示和分享。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[(data[0]==1) | (data[0]==3)]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]
fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(12,5))
alphas=list(np.linspace(0,1,20))
alphas.extend([2,3])
coef=np.zeros((len(alphas),X.shape[1]))
err=[]
for i,alpha in enumerate(alphas):
    modelLasso = Lasso(alpha=alpha)
    modelLasso.fit(X,Y)
    if i==0:
        coef[i]=modelLasso.coef_
    else:
        coef[i]=(modelLasso.coef_/coef[0])
    err.append(1-modelLasso.score(X,Y))    
print('前5个变量的回归系数(alpha=0):%s'%coef[0,][0:5])
for i in np.arange(0,X.shape[1]):
    axes[0].plot(coef[1:-1,i])
axes[0].set_title("Lasso回归中的收缩参数alpha和回归系数")
axes[0].set_xlabel("收缩参数alpha变化")
axes[0].set_xticks(np.arange(len(alphas)))
axes[0].set_ylabel("Beta(alpha)/Beta(alpha=0)")

axes[1].plot(err)
axes[1].set_title("Lasso回归中的收缩参数alpha和训练误差")
axes[1].set_xlabel("收缩参数alpha变化")
axes[1].set_xticks(np.arange(len(alphas)))
axes[1].set_ylabel("错判率")
plt.savefig("../4.png", dpi=500)  

 

04-Lasso回归和弹性网回归

这段代码的作用如下所述:

  1. 导入必要的模块:

    • 导入了 numpy、pandas、matplotlib.pyplot 等库,以及一些从 sklearn 中导入的模块,如 svm、linear_model 等,用于数据处理、机器学习建模和可视化。
    • 使用了 matplotlib.cm 进行颜色映射处理,以及 warnings 库来忽略警告信息。
  2. 读取数据并筛选:

    • 从名为 ‘邮政编码数据.txt’ 的文本文件中读取数据,假设数据使用空格分隔且没有列名。
    • 根据数据中第一列的值为 1 或 3 的条件,筛选出符合条件的数据作为分析的数据集。
  3. 弹性网(Elastic Net)回归建模和分析:

    • 对两种不同的 L1 范数比率 (l1_ratio) 进行弹性网回归建模(一种正则化方法,同时结合 L1 和 L2 范数)。
    • 初始化了一个包含两个子图的图形界面 fig, axes,每个子图对应一个 l1_ratio 值。
    • 对每个 l1_ratio 值,通过 enet_path 方法获取不同 alpha 值下的弹性网回归系数路径,并在子图中绘制出来。
    • 使用 ElasticNetCV 方法自动选择最优的 alpha 值,并在图形标题中展示该值和训练误差。
  4. 结果展示:

    • 在每个子图中,设置合适的 x 和 y 轴标签、标题,并调整坐标轴以确保图形显示完整和清晰。
    • 在第二个子图中,通过 axes[1].text 方法添加了关于最优 alpha 值和训练误差的文本说明。
  5. 保存图像:

    • 最后将绘制好的图形保存为文件 ‘4.png’,设定分辨率为 dpi=500。

综上所述,这段代码的主要目的是使用弹性网回归方法对数据进行分析和可视化,探讨不同的 L1 范数比率下的回归结果,同时自动选择最优的 alpha 值,并保存图像用于结果展示和分享。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[(data[0]==1) | (data[0]==3)]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]

fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(15,5))
ratios=[0.2,0.8]
bestalpha=[]
for i,ratio in enumerate(ratios):
    alphas_enet, coefs_enet, _ = enet_path(X,Y,l1_ratio=ratio)
    axes[i].plot(-np.log10(alphas_enet), coefs_enet.T, linestyle='--')
    model=ElasticNetCV(l1_ratio=ratio)
    model.fit(X,Y)
    bestalpha.append(model.alpha_)
    axes[i].set_xlabel('-Log(alpha)')
    axes[i].set_ylabel('回归系数')
    axes[i].set_title('Lasso回归和弹性网回归(L1范数率=%.2f)\n最优alpha=%.4f;训练误差=%.4f'
                      %(ratio,model.alpha_,1-model.score(X,Y)))
    axes[i].axis('tight')
model=ElasticNet(l1_ratio=0.8,alpha=bestalpha[0])
model.fit(X,Y)
axes[1].text(0,-0.6,"alpha=%.4f时:训练误差=%.4f"%(bestalpha[0],1-model.score(X,Y)),
             fontdict={'size':'12','color':'b'})
plt.savefig("../4.png", dpi=500) 

运行结果如下图所示: 

 

这段代码的作用是进行特征选择并可视化处理后的特征数据。下面是详细解释:

  1. 随机种子设置和数据抽样:

    • np.random.seed(1):设置随机种子,确保随机结果可复现性。
    • ids = np.random.choice(len(Y), 25):从目标变量 Y 的长度中随机选择 25 个索引,用于后续可视化。
  2. 特征选择和模型拟合:

    • 对于预先设定的两种 l1_ratio 和对应的最优 alpha 值,分别进行如下操作:
      • 创建 ElasticNet 模型 (estimator),使用指定的 l1_ratio 和 alpha 值。
      • 使用 SelectFromModel 进行特征选择,这个方法根据模型训练结果选择重要的特征。
      • selector.fit(X, Y):根据给定的模型对特征 X 和目标变量 Y 进行拟合,以确定保留哪些特征。
  3. 特征选择结果展示:

    • 打印输出保留的特征个数:len(selector.get_support(indices=True)) 表示保留的特征数量。
    • 使用 selector.inverse_transform(selector.transform(X)),将经过选择的特征逆转换回原始特征空间 Xtmp,用于后续图像展示。
  4. 特征数据可视化:

    • 创建一个 8x8 大小的图形界面 (plt.figure(figsize=(8,8))),用于展示选定的特征图像。
    • 对于每个随机选择的索引 item,从 Xtmp 中提取并重塑为 16x16 的图像 (img)。
    • 使用 plt.subplot(5,5,i+1) 在图中安排每个特征图像的位置,并使用灰度色彩映射 (cmap=cm.gray) 显示图像。
  5. 图像展示:

    • 调用 plt.show() 将生成的图像显示在界面上,每个子图显示一个特征图像。

综上所述,这段代码主要用于使用弹性网回归进行特征选择,并通过图像展示选择后的特征数据,从而帮助分析人员理解数据中哪些特征对模型建立有重要贡献。

np.random.seed(1)
ids=np.random.choice(len(Y),25)
for ratio,alpha in [(0.2,bestalpha[0]),(0.8,bestalpha[1])]:
    estimator = ElasticNet(l1_ratio=ratio,alpha=alpha)
    selector=SelectFromModel(estimator=estimator)
    selector.fit(X,Y)
    #print("阈值(%f,%f):%s"%(ratio,alpha,selector.threshold_))
    print("保留的特征个数(%f,%f):%d"%(ratio,alpha,len(selector.get_support(indices=True))))
    Xtmp=selector.inverse_transform(selector.transform(X))
    plt.figure(figsize=(8,8))
    for i,item in enumerate(ids):
        img=np.array(Xtmp[item,]).reshape((16,16))
        plt.subplot(5,5,i+1)
        plt.imshow(img,cmap=cm.gray)
    plt.show()

 运行结果如下图所示: 

 

总结

综上所述,Lasso回归和弹性网回归是两种常用的线性回归方法,通过正则化惩罚的引入,能够在保持模型预测准确性的同时,实现特征选择和模型复杂度控制,适用于处理各种类型的数据集和回归问题。

  • 21
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
Lasso回归是一种基于线性回归的正则化方法,它可以通过对模型系数的L1范数进行惩罚来实现特征选择和降维的效果。在本实战中,我们将利用Python中的Scikit-Learn库来实现对Lasso回归的探索和应用。 1. 数据集介绍 我们将使用Scikit-Learn库自带的波士顿房价数据集,该数据集包含506个样本和13个特征,目标变量是该地区的房价中位数。我们将使用这个数据集来演示如何使用Lasso回归来预测房价。 2. 数据集预处理 首先,我们需要将数据集分成训练集和测试集,以便我们可以在训练集上拟合模型,并在测试集上评估模型的性能。我们将数据集分成80%的训练集和20%的测试集。 ```python from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split # 加载数据集 boston = load_boston() # 分割数据集为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2, random_state=42) ``` 接下来,我们将对特征进行缩放。这是因为,Lasso回归对特征的缩放非常敏感,不同的特征缩放程度不同,可能会导致模型的表现不佳。 ```python from sklearn.preprocessing import StandardScaler # 对特征进行缩放 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) ``` 3. Lasso回归模型训练 现在我们可以开始训练Lasso回归模型了。我们将使用Scikit-Learn库中的Lasso类来实现。Lasso类的主要超参数是alpha,它控制了对模型系数的惩罚程度。较高的alpha值会导致更多的系数被缩小到零,使模型更加稀疏。 ```python from sklearn.linear_model import Lasso # 创建模型,并拟合训练集 lasso = Lasso(alpha=0.1) lasso.fit(X_train, y_train) ``` 4. 模型评估 现在,我们将使用测试集来评估模型的性能。我们将使用均方误差(MSE)和决定系数(R^2)作为评估指标。MSE是预测值与真实值之间的差异的平方的平均值,R^2是预测值与真实值之间的相关性的平方。 ```python from sklearn.metrics import mean_squared_error, r2_score # 在测试集上进行预测 y_pred = lasso.predict(X_test) # 计算MSE和R^2 mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print("MSE:", mse) print("R^2:", r2) ``` 输出结果为: ``` MSE: 26.39288651596332 R^2: 0.6684825753977207 ``` 我们可以看到,模型的MSE为26.39,R^2为0.67。这意味着模型可以解释目标变量的约67%的方差,但仍有很大的改进空间。 5. 特征选择 Lasso回归的一个主要应用是特征选择。它可以通过对系数进行惩罚来使一些系数缩小到零,从而实现自动特征选择的效果。我们可以检查模型的系数来确定哪些特征对预测结果最为重要。 ```python # 查看系数 lasso_coef = pd.DataFrame({"feature": boston.feature_names, "coef": lasso.coef_}) print(lasso_coef) ``` 输出结果为: ``` feature coef 0 CRIM -0.000000 1 ZN 0.000000 2 INDUS -0.000000 3 CHAS 0.000000 4 NOX -0.000000 5 RM 3.483788 6 AGE -0.000000 7 DIS -0.000000 8 RAD -0.000000 9 TAX -0.000000 10 PTRATIO -1.854240 11 B 0.000000 12 LSTAT -3.741204 ``` 我们可以看到,模型将大多数特征的系数缩小到了零,只有RM、PTRATIO和LSTAT这三个特征的系数不为零。这表明这三个特征对预测结果最为重要。 6. 超参数调优 最后,我们可以尝试调整Lasso回归的超参数alpha,以寻找最佳的模型性能。我们可以使用交叉验证来选择最佳的alpha值。 ```python from sklearn.model_selection import GridSearchCV # 定义超参数格 param_grid = {"alpha": [0.001, 0.01, 0.1, 1, 10]} # 创建交叉验证对象 grid_search = GridSearchCV(Lasso(), param_grid, cv=5) # 在训练集上训练交叉验证对象 grid_search.fit(X_train, y_train) # 输出最佳alpha值和交叉验证分数 print("Best alpha:", grid_search.best_params_["alpha"]) print("CV score:", grid_search.best_score_) ``` 输出结果为: ``` Best alpha: 0.1 CV score: 0.7049669646092562 ``` 我们可以看到,最佳的alpha值为0.1,交叉验证分数为0.70。这比我们之前的模型性能有所提高,说明调整超参数可以帮助我们改善模型的性能。 至此,我们已经完成了对Lasso回归的探索和应用。通过本实战,我们可以了解到Lasso回归的原理、如何使用Scikit-Learn库来实现Lasso回归、如何评估模型性能以及如何使用Lasso回归进行特征选择和超参数调优。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一伦明悦

感谢,您的支持是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值