【scikit-learn】02：使用sklearn库进行统计学习

最新推荐文章于 2025-11-03 22:48:01 发布

原创最新推荐文章于 2025-11-03 22:48:01 发布 · 3.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn #scikit

Python 同时被 3 个专栏收录

61 篇文章

订阅专栏

Sklearn机器学习

10 篇文章

订阅专栏

Sklearn

8 篇文章

订阅专栏

本文档通过一系列实例介绍了scikit-learn库的基本用法，涵盖从数据加载到多种机器学习算法的应用，如聚类、分类及回归等，并探讨了统计学习在科学数据处理中的应用。

# -*-coding:utf-8-*-

# ----------------------
#   Author：kevinelstri
#   Datetime:2017.2.17
# ----------------------

# -----------------------
#   A tutorial on statistical-learning for scientific data processing  科学数据处理的统计学习教程
#   http://scikit-learn.org/stable/tutorial/statistical_inference/index.html
# -----------------------

'''
'''

'''
    Statistical learning 统计学习：
    随着实验科学面临的数据集的大小急剧增加，机器学习技术逐渐发挥着重要的作用。

    这个教程将会探索统计学习，机器学习技术就是为了达到统计判断的目的：从数据中获得结论。

    scikit-learn 是python中实现经典机器学习的模块，实现了与python库（Numpy, Scipy, matplotlib）的紧密结合
'''

# -------------------------------
#   Statistical learning: the setting and the estimator object in scikit-learn
#   统计学习：scikit-learn 的设置和估计对象
#   http://scikit-learn.org/stable/tutorial/statistical_inference/settings.html
# -------------------------------

'''
    Datasets 数据集：
    scikit-learn 是从一个或多个数据集学习信息，这样的数据集也就是二维数组。
    二维数组的第一个轴为样本轴（samples axis），第二个轴为特征轴（features axis）
'''
from sklearn import datasets

iris = datasets.load_iris()
data = iris.data
print data.shape  # 数据集iris的形状(150, 4),iris数据集由150个观察值构成，每个观察值有4个特征，他们的萼片和花瓣的长度和宽度存储在iris.DESCR
print iris.DESCR

#  由于数据集的最初格式不是(n_samples, n_features), 所以还需要进行预处理，来满足scikit-learn的要求

digits = datasets.load_digits()
print digits.images.shape  # (1797, 8, 8)

import matplotlib.pyplot as plt

print plt.imshow(digits.images[-1], cmap=plt.cm.gray_r)

# 将scikit应用于这个数据集上，可以将8*8的图像转换为一个长度为64的特征向量

data = digits.images.reshape((digits.images.shape[0], -1))
print data

'''
    Estimators objects 估计对象
    Fitting data：数据拟合
    scikit-learn 主要实现的功能就是预测器的功能，预测器就是从数据中学习，可能是分类，回归，聚类算法，或者是从原始数据中进行提取和过滤特征
'''
# 一个预测对象包括fit()方法
estimator.fit(data)  # 预测器的方法
estinator = Estimator(param1, param2)  # 当被实例化或者是更改属性时，所有的参数都可以进行设置
estinator.param1

'''
    Estimator parameters 参数估计：
    1、当被实例化或者是更改属性时，所有的参数都可以进行设置
    2、当数据与估计值匹配时，参数就从数据中估计获得；所有的参数估计都是由以下划线结束的对象估计的属性
'''
estinator.estimated_param_