python自带数据集_sklearn 内置数据集

最新推荐文章于 2024-07-24 23:51:07 发布

weixin_39816024

最新推荐文章于 2024-07-24 23:51:07 发布

阅读量2k

点赞数

文章标签： python自带数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39816024/article/details/111445962

版权

本文介绍了sklearn库内置的三个经典数据集：鸢尾花数据集用于分类任务，乳腺癌数据集包含569个样本和30个特征，波士顿房价数据集用于回归分析。每个数据集的特点、统计摘要和使用方法进行了详细说明。

摘要由CSDN通过智能技术生成

sklearn内置了一些机器学习的数据集，其中包括iris(鸢尾花)数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集、体能训练数据集和酒质量数据集。

Iris(鸢尾花)数据集

Iris数据集是常用的分类实验数据集，它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中，被用来介绍线性判别式分析。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于(Setosa，Versicolour，Virginica)三个种类中的哪一类。

Iris以鸢尾花的特征作为数据来源，常用在分类操作中。该数据集由3种不同类型的鸢尾花的50个样本数据构成。其中的一个种类与另外两个种类是线性可分的，后两个种类是非线性可分的。

Iris数据集的相关统计

数据集样本实例数：150(每个类都有50个样本实例)。

特征(属性)个数：4个数字特征和1个类别特征。

特征(属性)信息：4个特征属性分别是sepal length(花萼长度)、sepal width(花萼宽度)、petal length(花瓣长度)、petal width(花瓣宽度)，单位是cm(厘米)，具体如下：

- sepal length in cm

- sepal width in cm

- petal length in cm

- petal width in cm

- class:

- Iris-Setosa

- Iris-Versicolour

- Iris-Virginica

数据集相关统计摘要：主要是数据集中特征相关数据的统计数据，具体如下：

Min

Max

Mean

SD(标准差)

Class Correlation

sepal length

4.3

7.9

5.84

0.83

0.7826

sepal width

2.0

4.4

3.05

0.43

-0.4194

petal length

1.0

6.9

3.76

1.76

0.9490(high!)

petal width

0.1

2.5

1.20

0.76</

最低0.47元/天解锁文章

weixin_39816024

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。