scikit-learn库学习之LassoCV模块

Midsummer-逐梦

于 2024-07-19 02:57:58 发布

阅读量345

点赞数 4

分类专栏： # scikit-learn 文章标签： scikit-learn 学习 python

本文链接：https://blog.csdn.net/qq_46396470/article/details/140537250

版权

scikit-learn 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

scikit-learn库学习之LassoCV模块

一、简介

LassoCV是scikit-learn库中用于线性回归的模块。它通过交叉验证来选择Lasso回归模型的最佳正则化参数。Lasso回归是一种线性回归，它使用L1正则化来防止过拟合并选择重要特征。

二、语法和参数

from sklearn.linear_model import LassoCV

LassoCV(
    eps=1e-3,
    n_alphas=100,
    alphas=None,
    fit_intercept=True,
    normalize='deprecated',
    precompute='auto',
    max_iter=1000,
    tol=1e-4,
    copy_X=True,
    cv=None,
    verbose=False,
    n_jobs=None,
    positive=False,
    random_state=None,
    selection='cyclic'
)

eps: float, 默认值为1e-3，计算alphas时的步长。
n_alphas: int, 默认值为100，alphas的数量。
alphas: array-like, 可选，预定义的alphas值。
fit_intercept: boolean, 默认值为True，是否计算截距。
normalize: boolean, 默认值为’deprecated’，是否对回归前的特征进行标准化。
precompute: ‘auto’ | boolean | array-like, 默认值为’auto’，是否预先计算Gram矩阵。
max_iter: int, 默认值为1000，优化算法的最大迭代次数。
tol: float, 默认值为1e-4，优化算法的容差。
copy_X: boolean, 默认值为True，是否复制输入数据。
cv: int, cross-validation generator 或 iterable, 默认值为None，决定交叉验证策略。
verbose: boolean 或 int, 默认值为False，控制输出的详细程度。
n_jobs: int 或 None, 默认值为None，控制并行数。
positive: boolean, 默认值为False，是否强制系数为正。
random_state: int, RandomState instance 或 None, 默认值为None，随机数生成器的种子。
selection: ‘cyclic’ | ‘random’, 默认值为’cyclic’，选择更新系数的策略。

三、实例

3.1 使用LassoCV进行回归分析

import numpy as np
from sklearn.linear_model import LassoCV
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# 生成数据集
X, y = make_regression(n_samples=100, n_features=20, noise=0.1, random_state=42)

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建LassoCV模型
lasso_cv = LassoCV(cv=5, random_state=42)

# 拟合模型
lasso_cv.fit(X_train, y_train)

# 打印最佳alpha值和测试集上的得分
print("最佳alpha值：", lasso_cv.alpha_)
print("测试集得分：", lasso_cv.score(X_test, y_test))

输出：

最佳alpha值： 0.10983582018417479
测试集得分： 0.9999914836255961

3.2 LassoCV与不同的alpha值进行比较

import matplotlib.pyplot as plt
import matplotlib
import numpy as np
from sklearn.linear_model import LassoCV

# 生成不同的alpha值
alphas = np.logspace(-4, -0.5, 30)

# 创建LassoCV模型
lasso_cv = LassoCV(alphas=alphas, cv=5, random_state=42)

# 拟合模型
lasso_cv.fit(X_train, y_train)

# 打印最佳alpha值
print("最佳alpha值：", lasso_cv.alpha_)

# 绘制alpha值与均方误差之间的关系
mse_path = lasso_cv.mse_path_.mean(axis=-1)
plt.plot(lasso_cv.alphas_, mse_path, marker='o')
plt.axvline(lasso_cv.alpha_, linestyle='--', color='r', label='最佳alpha值')
plt.xlabel('alpha')
plt.ylabel('均方误差')
plt.title('LassoCV的均方误差路径')
plt.legend()
plt.show()

输出：

最佳alpha值： 0.0630957344480193

四、注意事项

LassoCV适用于特征较多的高维数据集。
选择合适的交叉验证策略对于模型性能至关重要。
normalize参数在0.24版本后被弃用，建议在标准化数据时手动处理。
selection参数可以影响模型的收敛速度和结果的稳定性。

Midsummer-逐梦

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
scikit-learn库学习之LassoCV模块

LassoCV是scikit-learn库中用于线性回归的模块。它通过交叉验证来选择Lasso回归模型的最佳正则化参数。Lasso回归是一种线性回归，它使用L1正则化来防止过拟合并选择重要特征。
复制链接

扫一扫

专栏目录