一、数据集介绍:
鸢尾花多分类问题是tensorflow 官方文档里面的一个tensorflow入门教程,鸢尾花(Iris)数据集是一个著名的统计学资料,被机器学习研究人员大量使用。实验选取的是比较典型特点的三种鸢尾花:山鸢尾Iris setosa(0)、变色鸢尾Iris versicolor (1)、维吉尼亚鸢尾Iris virginica(2),各自都是线性可分的。从图一可以看出三种鸢尾花区别很明显,主要体现在花瓣和花萼上。
图1 鸢尾花示例
其中每类各含50个数据,每条记录有4个输入特征如图:花萼长度、花萼宽度、花瓣长度、花瓣宽度,单位CM,通过这4个特征和标签预测鸢尾花卉属于哪一品种。
图2 数据集特征
数据来源: http://archive.ics.uci.edu/ml/datasets/Iris.
也可从skleran包中直接下载。
数据格式特点如图3,所有数据隔开(csv数据的常用格式)
图3 鸢尾花分类问题训练数据集格式
其中第一行数据意义为:
150:数据集中数据的总条数
4:特征值的类别数,即花萼长度、花萼宽度、花瓣长度、花瓣宽度。
setosa、versicolor、virginica:三种鸢尾花名
从第二行及以下数据的意义为:
- 第一列为花萼长度值
- 第二列为花萼宽度值
- 第三列为花瓣长度值
- 第四列为花瓣宽度值
- 第五列对应是种类(三类鸢尾花分别用0,1,2表示)