由Fisher在1936年整理的Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。其数据集变量包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度))这四个变量预测鸢尾花的分类,其特征值都为正浮点数,单位为厘米。预测变量目标值为鸢尾花的分类为三类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),Iris Virginica(维吉尼亚鸢尾)。
Iris数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。
int类型, 对三种分类做编号如下:
0 : Iris setosa (山鸢尾)
1 :Iris versicolor (杂色鸢尾)
2 :Iris virginica(维吉尼亚鸢尾)
第一步:对iris数据集导入,进行探索性分析,通过语言print(v_iris.target)查看花卉总类
运行结果如下,输出的结果包含150个数值,其中