上一篇博文《sklearn机器学习:岭回归Ridge》中,提到了最佳正则化参数 α \alpha α取值选择的重要性。既然要选择 α \alpha α的范围,不可避免地要进行最优参数的选择。
引子:岭迹图
在各种机器器学习教材中,总是教导使用岭迹图来判断正则项参数的最佳取值。传统的岭迹图长这样,形似一个开口的喇叭图(根据横坐标的正负,喇叭有可能朝右或者朝左):
这个以正则化参数为横坐标,线性模型求解的系数 ω \omega ω为纵坐标的图像,其中每一条彩色的线都是一个 ω \omega ω系数。其目标是建立正则化参数与系数 ω \omega ω之间的直接关系,以此来观察正则化参数的变化是如何影响系数 ω \omega ω拟合的。岭迹图认为:线条交叉越多,则说明特征之间的多重共线性越高。应该选择系数较为平稳的喇叭口所对应的 α \alpha α取值作为最佳的正则化参数的取值。岭迹图的绘制方法非常简单,代码如下:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model
#创造10*10的希尔伯特矩阵
np.arange(1, 11) + np.arange(0, 10)[:, np.newaxis]
array([[ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
[ 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
[ 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
[ 4, 5, 6, 7, 8, 9, 10, 11, 12, 13],
[ 5, 6, 7, 8, 9