Scikit-Learn 实战 iris数据集分类
1. Iris数据集简介
Iris数据集 是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
2. 使用 Scikit-Learn 加载 iris 数据并划分训练集和测试机集
由于iris数据集很常用,sklearn中自带iris数据集,使用 load_iris 方法即可加载iris数据集,使用train_test_split方法可以很方便地将原始数据集划分为两部分,分别用于训练与测试使用。默认情况下train_test_split会将25%的数据划分到测试集,75%的数据划分到训练集,random_state保证了随机采样的可重入性。
import matplotlib.pyplot as plt
import numpy