转：iris数据集及简介

最新推荐文章于 2024-03-17 23:17:58 发布

骁勇善栈

最新推荐文章于 2024-03-17 23:17:58 发布

阅读量6.4w

点赞数 35

分类专栏： PYTHON_机器学习

PYTHON_机器学习专栏收录该内容

42 篇文章 2 订阅

订阅专栏

一.iris数据集简介

iris数据集的中文名是安德森鸢尾花卉数据集，英文全称是Anderson’s Iris data set。iris包含150个样本，对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息，所以iris数据集是一个150行5列的二维表。

通俗地说，iris数据集是用来给花做分类的数据集，每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征（前4列），我们需要建立一个分类器，分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾（这三个名词都是花的品种）。

iris的每个样本都包含了品种信息，即目标属性（第5列，也叫target或label）。

样本局部截图：

2016-06-03 12-32-40屏幕截图

将样本中的4个特征两两组合（任选2个特征分别作为横轴和纵轴，用不同的颜色标记不同品种的花），可以构建12种组合（其实只有6种，另外6种与之对称），如图所示：

python的数据挖掘/机器学习库scikit已经内置了iris数据集，如果还没有安装scikit，可以参考scikit安装教程。

二.scikit中iris数据集简介

在linux中打开终端（ubuntu默认快捷键是ctrl+alt+T），输入python进入python shell，输入代码：

from sklearn import datasets
iris=datasets.load_iris()

#data对应了样本的4个特征，150行4列
print iris.data.shape

#显示样本特征的前5行
print iris.data[:5]

#target对应了样本的类别（目标属性），150行1列
print iris.target.shape

#显示所有样本的目标属性
print iris.target

运行结果如下：
2016-06-03 12-49-55屏幕截图

其中，iris.target用0、1和2三个整数分别代表了花的三个品种

关于分类,我们使用了Iris数据集,这个scikit-learn自带了，在pkgs目录下搜索:iris.csv即可。

from sklearn.datasets import load_iris

iris = load_iris()

骁勇善栈

关注

35
点赞
踩
131

收藏

觉得还不错? 一键收藏
2
评论
转：iris数据集及简介

一.iris数据集简介iris数据集的中文名是安德森鸢尾花卉数据集，英文全称是Anderson’s Iris data set。iris包含150个样本，对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息，所以iris数据集是一个150行5列的二维表。通俗地说，iris数据集是用来给花做分类的数据集，每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征（前
复制链接

扫一扫