sklearn内置了一些机器学习的数据集,其中包括iris(鸢尾花)数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集、体能训练数据集和酒质量数据集。
Iris(鸢尾花)数据集
Iris数据集是常用的分类实验数据集,它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
Iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的50个样本数据构成。其中的一个种类与另外两个种类是线性可分的,后两个种类是非线性可分的。
Iris数据集的相关统计
数据集样本实例数:150(每个类都有50个样本实例)。
特征(属性)个数:4个数字特征和1个类别特征。
特征(属性)信息:4个特征属性分别是sepal length(花萼长度)、sepal width(花萼宽度)、petal length(花瓣长度)、petal width(花瓣宽度),单位是cm(厘米),具体如下:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
- class:
- Iris-Setosa
- Iris-Versicolour
- Iris-Virginica
数据集相关统计摘要:主要是数据集中特征相关数据的统计数据,具体如下:
Min
Max
Mean
SD(标准差)
Class Correlation
sepal length
4.3
7.9
5.84
0.83
0.7826
sepal width
2.0
4.4
3.05
0.43
-0.4194
petal length
1.0
6.9
3.76
1.76
0.9490(high!)
petal width
0.1
2.5
1.20
0.76</