sklearn是一个著名的python的机器学习包,最近想自学一下这个包的函数。但苦于英文文档对我这种英语渣渣杀伤力太大,所以借鉴了某人整理的sklearn学习笔记,加上我自己的理解,准备写一个系列的博客来记载一下学到的知识。
1:sklearn的安装:
由于本人刚刚入坑,所以直接在windows下下载了Anaconda,里面已经集成了有关python进行数据处理常用的包,比如numpy,pandas,sklearn,scipy,matplotlib等等。
这是Anaconda的下载网址https://www.continuum.io/downloads。
在这里下载想下载的版本。2.7和3.5的版本都可以。安装过程十分简单,在这里不在说了。
安装成功后打开spyder。
一:sklearn自带一些数据集,我们可以导入看一下:
from sklearn import datasets
iris=datasets.load_iris()
导入的数据,主要包括数据和数据集的元数据(便于描述数据,比如将原数据的特征名放在一起),其中.data中放的是数据,.target是需要预测的目标
Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。(摘自百度百科)。
二:模型的学习和预测:
在sklearn中,对一个数据的学习是通过.fit()和.predict()两个函数实现的。我们以线性回归算法为例。
from sklearn import linear_model//导入线性模型
clf=linear_model.LinearRegression();//创建一个对象,使用线性回归
clf.fit([[0,0],[1,1],[2,2]],[0,1,2])/fit函数可以用来拟合
print(clf.coef_)//输出模型中对应的参数,这里会输出0.5和0.5
print(clf.predict([3,3]))/进行预测的函数,这个会输出3.