sklearn的安装与数据集介绍

sklearn的安装

在MAC OS X系统下,直接用

sudo pip install sklearn

如果不使用sudo的话,一般会报‘Permission denied’的错误。
安装完成后,在python中执行以下命令

>>> import sklearn

如果不报错的话,证明安装成功。
使用sklearn._version_命令可以查看sklearn的版本

>>> sklearn.__version__
'0.18.1'

如果不报错的话,证明安装成功

sklearn的数据集介绍

sklearn自带了一些数据集,这里介绍两个比较常用的数据集。

iris数据集

iris数据集是一个经典的,易于做多分类任务的数据集。数据一共有3个分类,每个分类大约有50个样本,一共150个样本。样本一共有4个属性。

>>> from sklearn.datasets import load_iris
>>> data = load_iris()
>>> data.keys()
['target_names', 'data', 'target', 'DESCR','feature_names']

可以看到,load_iris()函数的返回值中一共包含五项内容:’target_names’, ‘data’, ‘target’, ‘DESCR’, ‘feature_names’

数据集一共有四个特征,分别是 ‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’

>>> data.feature_names
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

有三个类别,分别是’setosa’, ‘versicolor’, ‘virginica’

>>> data.target_names
['setosa', 'versicolor', 'virginica']

数据一共有150条记录,data中每一行代表一条数据,每一列代表一个特征,target中每一行代表一条数据对应的类别信息。

>>> data.data.shape
(150, 4)
>>> data.target.shape
(150,)

通过

>>>data.DESCR

也可以查看关于数据集具体的介绍

digits数据集

digits是数字识别的数据集,digits一共有10个类别,每个类别大约有180个样本,一共有1797个样本。digits数据集中存储了1797个8*8的图片的像素点信息,为了调用方便,digits中还存储了将8*8的图片矩阵拉成一个64维向量后的信息。

>>> data.images.shape
(1797, 8, 8)
>>> data.data.shape
(1797, 64)
>>> data.target.shape
(1797,)

之后会陆续介绍一些机器学习算法的原理与在sklearn中的调用方法,如果有不正确的地方欢迎大家指正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值