sklearn的安装
在MAC OS X系统下,直接用
sudo pip install sklearn
如果不使用sudo的话,一般会报‘Permission denied’的错误。
安装完成后,在python中执行以下命令
>>> import sklearn
如果不报错的话,证明安装成功。
使用sklearn._version_命令可以查看sklearn的版本
>>> sklearn.__version__
'0.18.1'
如果不报错的话,证明安装成功
sklearn的数据集介绍
sklearn自带了一些数据集,这里介绍两个比较常用的数据集。
iris数据集
iris数据集是一个经典的,易于做多分类任务的数据集。数据一共有3个分类,每个分类大约有50个样本,一共150个样本。样本一共有4个属性。
>>> from sklearn.datasets import load_iris
>>> data = load_iris()
>>> data.keys()
['target_names', 'data', 'target', 'DESCR','feature_names']
可以看到,load_iris()函数的返回值中一共包含五项内容:’target_names’, ‘data’, ‘target’, ‘DESCR’, ‘feature_names’
数据集一共有四个特征,分别是 ‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’
>>> data.feature_names
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
有三个类别,分别是’setosa’, ‘versicolor’, ‘virginica’
>>> data.target_names
['setosa', 'versicolor', 'virginica']
数据一共有150条记录,data中每一行代表一条数据,每一列代表一个特征,target中每一行代表一条数据对应的类别信息。
>>> data.data.shape
(150, 4)
>>> data.target.shape
(150,)
通过
>>>data.DESCR
也可以查看关于数据集具体的介绍
digits数据集
digits是数字识别的数据集,digits一共有10个类别,每个类别大约有180个样本,一共有1797个样本。digits数据集中存储了1797个8*8的图片的像素点信息,为了调用方便,digits中还存储了将8*8的图片矩阵拉成一个64维向量后的信息。
>>> data.images.shape
(1797, 8, 8)
>>> data.data.shape
(1797, 64)
>>> data.target.shape
(1797,)
之后会陆续介绍一些机器学习算法的原理与在sklearn中的调用方法,如果有不正确的地方欢迎大家指正。