sklearn的安装与数据集介绍

最新推荐文章于 2024-05-09 15:07:14 发布

BestBZW

最新推荐文章于 2024-05-09 15:07:14 发布

阅读量2.7k

点赞数 1

分类专栏： sklearn 文章标签： machine-learning

本文链接：https://blog.csdn.net/BestBZW/article/details/63252749

版权

1 篇文章 0 订阅

订阅专栏

在MAC OS X系统下，直接用

sudo pip install sklearn

如果不使用sudo的话，一般会报‘Permission denied’的错误。
安装完成后，在python中执行以下命令

>>> import sklearn

如果不报错的话，证明安装成功。
使用sklearn._version_命令可以查看sklearn的版本

>>> sklearn.__version__
'0.18.1'

如果不报错的话，证明安装成功

sklearn自带了一些数据集，这里介绍两个比较常用的数据集。

iris数据集是一个经典的，易于做多分类任务的数据集。数据一共有3个分类，每个分类大约有50个样本，一共150个样本。样本一共有4个属性。

>>> from sklearn.datasets import load_iris
>>> data = load_iris()
>>> data.keys()
['target_names', 'data', 'target', 'DESCR','feature_names']

可以看到，load_iris()函数的返回值中一共包含五项内容：’target_names’, ‘data’, ‘target’, ‘DESCR’, ‘feature_names’

数据集一共有四个特征，分别是 ‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’

>>> data.feature_names
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

有三个类别，分别是’setosa’, ‘versicolor’, ‘virginica’

>>> data.target_names
['setosa', 'versicolor', 'virginica']

数据一共有150条记录，data中每一行代表一条数据，每一列代表一个特征，target中每一行代表一条数据对应的类别信息。

>>> data.data.shape
(150, 4)
>>> data.target.shape
(150,)

通过

>>>data.DESCR

也可以查看关于数据集具体的介绍

digits是数字识别的数据集，digits一共有10个类别，每个类别大约有180个样本，一共有1797个样本。digits数据集中存储了1797个8*8的图片的像素点信息，为了调用方便，digits中还存储了将8*8的图片矩阵拉成一个64维向量后的信息。

>>> data.images.shape
(1797, 8, 8)
>>> data.data.shape
(1797, 64)
>>> data.target.shape
(1797,)

之后会陆续介绍一些机器学习算法的原理与在sklearn中的调用方法，如果有不正确的地方欢迎大家指正。

关注

专栏目录