Scikit-learn实战之线性模型

最新推荐文章于 2024-08-28 08:36:30 发布

JeemyJohn

最新推荐文章于 2024-08-28 08:36:30 发布

阅读量1.3k

点赞数 4

分类专栏：机器学习 Python 机器学习文章标签：机器学习线性模型

本文链接：https://blog.csdn.net/u013709270/article/details/53561099

版权

机器学习同时被 3 个专栏收录

44 篇文章 7 订阅

订阅专栏

机器学习

41 篇文章 52 订阅

订阅专栏

Python

7 篇文章 0 订阅

订阅专栏

下面是一系列的用于回归的方法，这些方法的目标值（target value）是由输入变量的线性组合而成。在数学概念上，如果 $\hat y$ 是预测值：

$这里写图片描述$

在整个模块中，我们指定向量 $这里写图片描述$

为系数，并且 $\omega_0$ 作为截距。

1. 普通最小二乘法

LinearRegression是一个线性模型，它的系数 $这里写图片描述$ 最小化数据集中的观测结果和线性预测结果之间的残差和。它解决的问题在数学上可以形式化为：

$\min_{w} || X_w-y||^2$

这里写图片描述

LinearRegression 的 fit 方法接收数组 X，y 作为其参数，并且会将线性模型的的系数 $\omega$ 存储在它的成员 coef_ 中：

>>> from sklearn import linear_model
>>> reg = linear_model.LinearRegression()
>>> reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
>>> reg.coef_
array([ 0.5,  0.5])

然而由普通最小二乘法估计的系数依赖于模型项之间的独立性。当所有的项是相关的，并且设计矩阵X 的列有一个近似的线性相关性。设计矩阵接近奇异，并且作为一个结果，最小二乘估计将对观察值的随机误差高度敏感，产生一个较大的差异。这种情况下，多重共线性的可能性将会增加。例如，数据没有按照实验设计来收集。

1.1 普通最小二乘法的复杂性

这种方法使用矩阵 X 的奇异值分解来计算最小二乘解。如果矩阵 X的尺寸是 $(n , p)$ , 那么该方法的的复杂度将会是 $O(np^2)$ ,假设 $n\ge p$ 。

2. 岭回归

Ridge 回归通过引入系数的惩罚项来处理普通最小二乘法的一些问题：

$这里写图片描述$

在这里， $\alpha \ge 0$ 是一个复杂的参数，它控制着收缩量： $\alpha$ 值越大，收缩量越大，并且系数的共线性将变得更鲁棒。

这里写图片描述

和其它的线性模型一样，Ridge 的 fit 方法接收数组 X，y 作为其参数，并且会将线性模型的的系数 $\omega$ 存储在它的成员 coef_ 中：

>>> from sklearn import linear_model
>>> reg = linear_model.Ridge (alpha = .5)
>>> reg.fit ([[0, 0], [0, 0], [1, 1]], [0, .1, 1]) 
Ridge(alpha=0.5, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)
>>> reg.coef_
array([ 0.34545455,  0.34545455])
>>> reg.intercept_ 
0.13636...

2.2 Ridge的复杂性

Ridge 的算法复杂性与普通最小二乘的复杂度一致。

2.3 设置正则化参数：广义交叉验证

RidgeCV实现了一个内置 $\alpha$ 参数的交叉验证的岭回归。它使用的是留一法验证：

>>> from sklearn import linear_model
>>> reg = linear_model.RidgeCV(alphas=[0.1, 1.0, 10.0])
>>> reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])       
RidgeCV(alphas=[0.1, 1.0, 10.0], cv=None, fit_intercept=True, scoring=None,
    normalize=False)
>>> reg.alpha_                                      
0.1