什么是sklearn
sklearn(全名scikit-learn,sklearn是包名)是一个python的第三方提供强有力的机器学习库,涵盖了了从数据预处理到模型训练的各个方面,能够极大的减少我们的工作量,快速方便的开展机器学习的工作。
官方网址:https://scikit-learn.org/
安装sklearn
如果已经安装好了numpy和scipy,可以直接在控制台中输入
pip
如果没有,则需要先安装numpy和scipy,方法同上
pip install numpy
如果之前并没有一点python经验请看 配置python环境与pycharm:https://blog.csdn.net/ling_mochen/article/details/79314118
跑一个sample
运行一下这个示例代码,这个代码是加载了sklearn自带的iris的数据集,由Fisher在1936年整理,包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。目标值为鸢尾花的分类(Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),Iris Virginica(维吉尼亚鸢尾))。通过决策树算法构建起对其分类的模型。
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
iris = load_iris()#加载数据集
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target, test_size=0.3)#划分训练集与测试集
clf = DecisionTreeClassifier()#采用决策树模型
clf.fit(x_train,y_train)#训练模型
predict_target = clf.predict(x_test)#加载测试集
print(sum(predict_target == y_test)) #预测结果与真实结果比对
print(metrics.classification_report(y_test,predict_target))
print(metrics.confusion_matrix(y