sklearn是机器学习中一个常用的python第三方模块,对常用的机器学习算法进行了封装
其中包括:
1.分类(Classification)
2.回归(Regression)
3.聚类(Clustering)
4.数据降维(Dimensionality reduction)
5.常用模型(Model selection)
6.数据预处理(Preprocessing)
本文将从sklearn的安装开始讲解,由浅入深,逐步上手sklearn。
sklearn官网:http://scikit-learn.org/stable/index.html
sklearn API:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing
skleran安装
sklearn的目前版本是0.19.1
依赖包:
Python (>=2.6或>=3.3)
NumPy(>=1.6.1)
SciPy(>=0.9)
使用pip安装,terminal直接执行即可
pip install -U scikit-learn
使用Anaconda安装,推荐Anaconda,因为里面已经内置了NumPy,SciPy等常用工具
conda install scikit-learn
安装完成后可以在python中检查一下版本,import sklearn不报错,则表示安装成功
>>import sklearn
>>sklearn.__version__
'0.19.1'
获取数据
机器学习算法往往需要大量的数据,在skleran中获取数据通常采用两种方式,一种是使用自带的数据集,另一种是创建数据集
导入数据集
sklearn自带了很多数据集,可以用来对算法进行测试分析,免去了自己再去找数据集的烦恼
其中包括:
鸢尾花数据集:load_iris()
手写数字数据集:load_digitals()
糖尿病数据集:load_diabetes()
乳腺癌数据集:load_breast_cancer()
波士顿房价数据集:load_boston()
体能训练数据集:load_linnerud()
这里以鸢尾花数据集为例导入数据集