sklearn机器学习：岭回归用于选取最优正则化系数α的类RidgeCV

最新推荐文章于 2023-07-18 13:45:33 发布

Zen of Data Analysis

最新推荐文章于 2023-07-18 13:45:33 发布

阅读量6.6k

点赞数 7

分类专栏：机器学习算法 Python 文章标签：机器学习算法 python 岭回归正则化

本文链接：https://blog.csdn.net/gracejpw/article/details/102488265

版权

本文探讨了传统岭迹图在选择岭回归正则化参数α时的不足，并指出交叉验证是更可靠的选择标准。sklearn.linear_model.RidgeCV提供了一个方便的解决方案，通过交叉验证寻找最小均方误差的α值。关键参数包括alphas、scoring和cv，允许自定义正则化参数集合、评估指标和交叉验证方式。

摘要由CSDN通过智能技术生成

上一篇博文《sklearn机器学习：岭回归Ridge》中，提到了最佳正则化参数 $\alpha$ 取值选择的重要性。既然要选择 $\alpha$ 的范围，不可避免地要进行最优参数的选择。

引子：岭迹图

在各种机器器学习教材中，总是教导使用岭迹图来判断正则项参数的最佳取值。传统的岭迹图长这样，形似一个开口的喇叭图（根据横坐标的正负，喇叭有可能朝右或者朝左）：
在这里插入图片描述
这个以正则化参数为横坐标，线性模型求解的系数 $\omega$ 为纵坐标的图像，其中每一条彩色的线都是一个 $\omega$ 系数。其目标是建立正则化参数与系数 $\omega$ 之间的直接关系，以此来观察正则化参数的变化是如何影响系数 $\omega$ 拟合的。岭迹图认为：线条交叉越多，则说明特征之间的多重共线性越高。应该选择系数较为平稳的喇叭口所对应的 $\alpha$ 取值作为最佳的正则化参数的取值。岭迹图的绘制方法非常简单，代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model

#创造10*10的希尔伯特矩阵
np.arange(1, 11) + np.arange(0, 10)[:, np.newaxis]

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12],
       [ 4,  5,  6,  7,  8,  9, 10, 11, 12, 13],
       [ 5,  6,  7,  8,  9