【Scikit-Learn 中文文档】监督学习：从高维观察预测输出变量 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

最新推荐文章于 2024-09-19 10:43:27 发布

Sylvester_

最新推荐文章于 2024-09-19 10:43:27 发布

阅读量276

点赞数

分类专栏：机器学习 scikit

机器学习同时被 2 个专栏收录

52 篇文章 1 订阅

订阅专栏

scikit

49 篇文章 1 订阅

订阅专栏

中文文档: http://sklearn.apachecn.org/cn/stable/tutorial/statistical_inference/supervised_learning.html

英文文档: http://sklearn.apachecn.org/en/stable/tutorial/statistical_inference/supervised_learning.html

官方文档: http://scikit-learn.org/stable/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh（觉得不错麻烦给个 Star，我们一直在努力）

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

关于我们: http://www.apachecn.org/organization/209.html

有兴趣的们也可以和我们一起来维护，持续更新中。。。

机器学习交流群: 629470233

监督学习：从高维观察预测输出变量

监督学习解决的问题

监督学习在于学习两个数据集的联系：观察数据 X 和我们正在尝试预测的额外变量 y (通常称“目标”或“标签”)，而且通常是长度为 n_samples 的一维数组。

scikit-learn 中所有监督的估计量 <https://en.wikipedia.org/wiki/Estimator> 都有一个用来拟合模型的 fit(X, y) 方法，和根据给定的没有标签观察值 X 返回预测的带标签的 y 的 predict(X) 方法。

词汇：分类和回归

如果预测任务是为了将观察值分类到有限的标签集合中，换句话说，就是给观察对象命名，那任务就被称为分类任务。另外，如果任务是为了预测一个连续的目标变量，那就被称为回归任务。

当在 scikit-learn 中进行分类时，y 是一个整数或字符型的向量。

注：可以查看 :ref: 用 scikit-learn 进行机器学习介绍 <introduction> 快速了解机器学习中的基础词汇。

线性模型：从回归到稀疏

糖尿病数据集

糖尿病数据集包括442名患者的10个生理特征(年龄，性别，体重，血压)，和一年后的疾病级别指标:

 
    >>> 
    >>> diabetes = datasets.load_diabetes()
>>> diabetes_X_train = diabetes.data[-20]
>>> diabetes_X_test  = diabetes.data[-20:]
>>> diabetes_y_train = diabetes.target[:-20]
>>> diabetes_y_test  = diabetes.target[-20:]
 
   

手头上的任务是为了从生理特征预测疾病级别。

线性回归

LinearRegression，最简单的拟合线性模型形式，是通过调整数据集的一系列参数令残差平方和尽可能小。

Linear models: $y = X\beta + \epsilon$

$X$ : 数据
$y$ : 目标变量
$\beta$ : 回归系数
$\epsilon$ : 观察噪声

 
    >>> 
    >>> from sklearn import linear_model
>>> regr = linear_model.LinearRegression()
>>> regr.fit(diabetes_X_train, diabetes_y_train)
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
>>> print(regr.coef_)
[   0.30349955 -237.63931533  510.53060544  327.73698041 -814.13170937
  492.81458798  102.84845219  184.60648906  743.51961675   76.09517222]

>>> # 均方误差
>>> np.mean((regr.predict(diabetes_X_test)-diabetes_y_test)**2)
2004.56760268...

>>> # 方差分数：1 是完美的预测
>>> # 0 意味着 X 和 y 之间没有线性关系。
>>> regr.score(diabetes_X_test, diabetes_y_test) 
0.5850753022690...
 
   

收缩

如果每个维度的数据点很少，观察噪声就会导致很大的方差：

../../_images/sphx_glr_plot_ols_ridge_variance_001.png

 
    >>> 
    >>> X = np.c_[ .5, 1].T
>>> y = [.5, 1]
>>> test = np.c_[ 0, 2].T
>>> regr = linear_model.LinearRegression()

>>> import matplotlib.pyplot as plt 
>>> plt.figure() 

>>> np.random.seed(0)
>>> for _ in range(6): 
...    this_X = .1*np.random.normal(size=(2, 1)) + X
...    regr.fit(this_X, y)
...    plt.plot(test, regr.predict(test)) 
...    plt.scatter(this_X, y, s=3)  
 
   

高纬统计学习中的一个解决方法是收缩回归系数到0：任何两个随机选择的观察值数据集都很可能是不相关的。这称为岭回归：

../../_images/sphx_glr_plot_ols_ridge_variance_002.png

 
    >>> 
    >>> regr = linear_model.Ridge(alpha=.1)

>>> plt.figure() 

>>> np.random.seed(0)
>>> for _ in range(6): 
...    this_X = .1*np.random.normal(size=(2, 1)) + X
...    regr.fit(this_X, y)
...    plt.plot(test, regr.predict(test)) 
...    plt.scatter(this_X, y, s=3) 
 
   

这是 bias/variance tradeoff 中的一个例子：岭参数 alpha 越大，偏差越大，方差越小。

我们可以选择 alpha 来最小化排除错误，这里使用糖尿病数据集而不是人为数据:

 
    >>> 
    >>> alphas = np.logspace(-4, -1, 6)
>>> from __future__ import print_function
>>> print([regr.set_params(alpha=alpha
...             ).fit(diabetes_X_train, diabetes_y_train,
...             ).score(diabetes_X_test, diabetes_y_test) for alpha in alphas]) 
[0.5851110683883..., 0.5852073015444..., 0.5854677540698..., 0.5855512036503..., 0.5830717085554..., 0.57058999437...]
 
   

Note

捕获拟合参数噪声使得模型不能归纳新的数据称为过拟合。岭回归产生的偏差被称为正则化。

稀疏

只拟合特征1和2

Note

整个糖尿病数据集包括11个维度(10个特征维度和1个目标变量)。很难直观地表示出来，但是记住那是一个比较空的空间可能比较有用。

我们可以看到，尽管特征2在整个模型占有一个很大的系数，但是当考虑特征1时，其对 y 的影响就较小了。

为了提高问题的条件(比如，缓解`维度惩罚`)，只选择信息特征和设置无信息时就会变得有趣，比如特征2到0。岭回归会减小他们的值，但不会减到0.另一种抑制方法，称为 Lasso (最小绝对收缩和选择算子)，可以把一些系数设为0。这些方法称为 稀疏法，稀疏可以看作是奥卡姆剃刀的应用：模型越简单越好。

 
    >>> 
    >>> regr = linear_model.Lasso()
>>> scores = [regr.set_params(alpha=alpha
...             ).fit(diabetes_X_train, diabetes_y_train
...             ).score(diabetes_X_test, diabetes_y_test)
...        for alpha in alphas]
>>> best_alpha = alphas[scores.index(max(scores))]
>>> regr.alpha = best_alpha
>>> regr.fit(diabetes_X_train, diabetes_y_train)
Lasso(alpha=0.025118864315095794, copy_X=True, fit_intercept=True,
   max_iter=1000, normalize=False, positive=False, precompute=False,
   random_state=None, selection='cyclic', tol=0.0001, warm_start=False)
>>> print(regr.coef_)
[   0.         -212.43764548  517.19478111  313.77959962 -160.8303982    -0.
 -187.19554705   69.38229038  508.66011217   71.84239008]
 
   

同一个问题的不同算法

不同的算法可以用于解决同一个数学问题。比如在 scikit-learn 里 Lasso 对象使用 coordinate descent 方法解决 lasso 回归问题，对于大型数据集很有效。但是，scikit-learn 也提供了使用 LARS 算法的:class:LassoLars 对象，对于处理带权向量非常稀疏的数据非常有效(比如，问题的观察值很少)。

分类

../../_images/sphx_glr_plot_logistic_001.png

对于分类，比如标定鸢尾属植物任务，线性回归就不是好方法了，因为它会给数据很多远离决策边界的权值。一个线性方法是为了拟合 sigmoid 函数或 logistic 函数：

$y = \textrm{sigmoid}(X\beta - \textrm{offset}) + \epsilon =\frac{1}{1 + \textrm{exp}(- X\beta + \textrm{offset})} + \epsilon$

 
    >>> 
    >>> logistic = linear_model.LogisticRegression(C=1e5)
>>> logistic.fit(iris_X_train, iris_y_train)
LogisticRegression(C=100000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)
 
   

这就是有名的： LogisticRegression

../../_images/sphx_glr_plot_iris_logistic_001.png

多类分类

如果你有很多类需要预测，一种常用方法就是去拟合一对多分类器，然后使用根据投票为最后做决定。

使用 logistic 回归进行收缩和稀疏

LogisticRegression 对象中的 C 参数控制着正则化数量：C 值越大，正则化数量越小。penalty="l2" 提供收缩`(比如，无稀疏系数)，同时 ``penalty=”l1”` 提供`稀疏化`。

练习

尝试用最近邻和线性模型分类数字数据集。留出最后 10%的数据，并测试观察值预期效果。

 
     from sklearn import datasets, neighbors, linear_model

digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target

方法: ../../auto_examples/exercises/plot_digits_classification_exercise.py

支持向量积(SVMs)

线性 SVMs

支持向量机属于判别模型家族：它们尝试通过找到样例的一个组合来构建一个两类之间最大化的平面。通过 C 参数进行正则化设置：C 的值小意味着边缘是通过分割线周围的所有观测样例进行计算得到的(更正则化)；C 的值大意味着边缘是通过邻近分割线的观测样例计算得到的(更少正则化)。

例子:

Plot different SVM classifiers in the iris dataset

SVMs 可以用于回归 –:class: SVR (支持向量回归)–，或者分类 –:class: SVC (支持向量分类)。

 
    >>> 
    >>> from sklearn import svm
>>> svc = svm.SVC(kernel='linear')
>>> svc.fit(iris_X_train, iris_y_train)    
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)
 
   

Warning

规格化数据

对很多估计器来说，包括 SVMs，为每个特征值使用单位标准偏差的数据集，是获得好的预测重要前提。

使用核

在特征空间类并不总是线性可分的。解决办法就是构建一个不是线性的但能是多项式的函数做代替。这要使用 核技巧(kernel trick)，它可以被看作通过设置 kernels 在观察样例上创建决策力量：

线性核	多项式核

>>> >>> svc = svm.SVC(kernel='linear')	>>> >>> svc = svm.SVC(kernel='poly', ... degree=3) >>> # degree: polynomial degree

RBF 内核(径向基函数)

 
        >>> 
        >>> svc = svm.SVC(kernel='rbf')
>>> # gamma: inverse of size of
>>> # radial kernel

交互例子

查看 SVM GUI 通过下载 svm_gui.py；通过左右按键添加两类数据点，拟合模型并改变参数和数据。

../../_images/sphx_glr_plot_iris_dataset_001.png

练习

根据特征1和特征2，尝试用 SVMs 把1和2类从鸢尾属植物数据集中分出来。为每一个类留下10%，并测试这些观察值预期效果。

警告: 类是有序的，不要留下最后10%，不然你只能测试一个类了。

提示: 为了直观显示，你可以在网格上使用 decision_function 方法。

 
     iris = datasets.load_iris()
X = iris.data
y = iris.target

X = X[y != 0, :2]
y = y[y != 0]

方法: ../../auto_examples/exercises/plot_iris_exercise.py

中文文档: http://sklearn.apachecn.org/cn/stable/tutorial/statistical_inference/supervised_learning.html

英文文档: http://sklearn.apachecn.org/en/stable/tutorial/statistical_inference/supervised_learning.html

官方文档: http://scikit-learn.org/stable/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh（觉得不错麻烦给个 Star，我们一直在努力）

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

关于我们: http://www.apachecn.org/organization/209.html

有兴趣的们也可以和我们一起来维护，持续更新中。。。

机器学习交流群: 629470233

Sylvester_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Scikit-Learn 中文文档】监督学习：从高维观察预测输出变量 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

监督学习：从高维观察预测输出变量

最近邻和维度惩罚

K近邻分类器

维度惩罚

线性模型：从回归到稀疏

线性回归

收缩

稀疏

分类

支持向量积(SVMs)

线性 SVMs

使用核