sklearn.linear_model.Ridge()函数解析（最清晰的解释）

最新推荐文章于 2025-03-18 11:01:54 发布

我是管小亮

最新推荐文章于 2025-03-18 11:01:54 发布

阅读量1.4w

点赞数 11

文章标签： sklearn sklearn.linear_model.Ridge 线性最小二乘法预测数值型数据：回归

本文链接：https://blog.csdn.net/TeFuirnever/article/details/100578650

版权

Sklearn 专栏收录该内容

7 篇文章

订阅专栏

欢迎关注WX公众号：【程序员管小亮】

sklearn.linear_model.Ridge()函数是具有l2正则化的线性最小二乘法。

class sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True, normalize=False, 
								copy_X=True, max_iter=None, tol=0.001, solver=’auto’, 
								random_state=None)

最小化目标函数：
$y - Xw || ^ 2_2 + alpha * || w || ^ 2_2$

参数：

alpha：正则化系数，float类型，默认为1.0。正则化改善了问题的条件并减少了估计的方差。较大的值指定较强的正则化。
fit_intercept：是否需要截距，bool类型，默认为True。也就是是否求解b。
normalize：是否先进行归一化，bool类型，默认为False。如果为真，则回归X将在回归之前被归一化。当fit_intercept设置为False时，将忽略此参数。当回归量归一化时，注意到这使得超参数学习更加鲁棒，并且几乎不依赖于样本的数量。相同的属性对标准化数据无效。然而，如果你想标准化，请在调用normalize = False训练估计器之前，使用preprocessing.StandardScaler处理数据。
copy_X：是否复制X数组，bool类型，默认为True，如果为True，将复制X数组; 否则，它覆盖原数组X。
max_iter：最大的迭代次数，int类型，默认为None，最大的迭代次数，对于sparse_cg和lsqr而言，默认次数取决于scipy.sparse.linalg，对于sag而言，则默认为1000次。
tol：精度，float类型，默认为0.001。就是解的精度。
solver：求解方法，str类型，默认为auto。可选参数为：auto、svd、cholesky、lsqr、sparse_cg、sag。
- auto根据数据类型自动选择求解器。
- svd使用X的奇异值分解来计算Ridge系数。对于奇异矩阵比cholesky更稳定。
- cholesky使用标准的scipy.linalg.solve函数来获得闭合形式的解。
- sparse_cg使用在scipy.sparse.linalg.cg中找到的共轭梯度求解器。作为迭代算法，这个求解器比大规模数据（设置tol和max_iter的可能性）的cholesky更合适。
- lsqr使用专用的正则化最小二乘常数scipy.sparse.linalg.lsqr。它是最快的，但可能在旧的scipy版本不可用。它是使用迭代过程。
- sag使用随机平均梯度下降。它也使用迭代过程，并且当n_samples和n_feature都很大时，通常比其他求解器更快。注意，sag快速收敛仅在具有近似相同尺度的特征上被保证。您可以使用sklearn.preprocessing的缩放器预处理数据。
random_state：sag的伪随机种子。

还有其他参数：
在这里插入图片描述

例子：

>>> from sklearn.linear_model import Ridge
>>> import numpy as np
>>> n_samples, n_features = 10, 5
>>> rng = np.random.RandomState(0)
>>> y = rng.randn(n_samples)
>>> X = rng.randn(n_samples, n_features)
>>> clf = Ridge(alpha=1.0)
>>> clf.fit(X, y) 
Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)