转:iris数据集及简介

一.iris数据集简介

iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set。iris包含150个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表。

通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(前4列),我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾(这三个名词都是花的品种)。

iris的每个样本都包含了品种信息,即目标属性(第5列,也叫target或label)。

样本局部截图:

2016-06-03 12-32-40屏幕截图

将样本中的4个特征两两组合(任选2个特征分别作为横轴和纵轴,用不同的颜色标记不同品种的花),可以构建12种组合(其实只有6种,另外6种与之对称),如图所示:

Iris_dataset_scatterplot.svg

python的数据挖掘/机器学习库scikit已经内置了iris数据集,如果还没有安装scikit,可以参考scikit安装教程

二.scikit中iris数据集简介

在linux中打开终端(ubuntu默认快捷键是ctrl+alt+T),输入python进入python shell,输入代码:

from sklearn import datasets
iris=datasets.load_iris()

#data对应了样本的4个特征,150行4列
print iris.data.shape

#显示样本特征的前5行
print iris.data[:5]

#target对应了样本的类别(目标属性),150行1列
print iris.target.shape

#显示所有样本的目标属性
print iris.target

运行结果如下:
2016-06-03 12-49-55屏幕截图

其中,iris.target用0、1和2三个整数分别代表了花的三个品种

关于分类,我们使用了Iris数据集,这个scikit-learn自带了,在pkgs目录下搜索:iris.csv即可。

from sklearn.datasets import load_iris

iris = load_iris()

  • 35
    点赞
  • 131
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值