python自带数据集_sklearn 内置数据集

本文介绍了sklearn库内置的三个经典数据集:鸢尾花数据集用于分类任务,乳腺癌数据集包含569个样本和30个特征,波士顿房价数据集用于回归分析。每个数据集的特点、统计摘要和使用方法进行了详细说明。
摘要由CSDN通过智能技术生成

sklearn内置了一些机器学习的数据集,其中包括iris(鸢尾花)数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集、体能训练数据集和酒质量数据集。

Iris(鸢尾花)数据集

Iris数据集是常用的分类实验数据集,它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

Iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的50个样本数据构成。其中的一个种类与另外两个种类是线性可分的,后两个种类是非线性可分的。

Iris数据集的相关统计

数据集样本实例数:150(每个类都有50个样本实例)。

特征(属性)个数:4个数字特征和1个类别特征。

特征(属性)信息:4个特征属性分别是sepal length(花萼长度)、sepal width(花萼宽度)、petal length(花瓣长度)、petal width(花瓣宽度),单位是cm(厘米),具体如下:

- sepal length in cm

- sepal width in cm

- petal length in cm

- petal width in cm

- class:

- Iris-Setosa

- Iris-Versicolour

- Iris-Virginica​

数据集相关统计摘要:主要是数据集中特征相关数据的统计数据,具体如下:

Min

Max

Mean

SD(标准差)

Class Correlation

sepal length

4.3

7.9

5.84

0.83

0.7826

sepal width

2.0

4.4

3.05

0.43

-0.4194

petal length

1.0

6.9

3.76

1.76

0.9490(high!)

petal width

0.1

2.5

1.20

0.76</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值