机器学习数据集哪家强?Sklearn预制的这16个数据集不容错过~

本文介绍了scikit-learn(sklearn)库中预装的16个数据集,包括Iris、Diabetes、Digits等,涵盖了分类、回归、聚类等多种机器学习任务。这些数据集经过预处理,方便数据科学家直接使用,节省实验和开发时间。
摘要由CSDN通过智能技术生成

数据是机器学习算法的动力,scikit-learn货sklearn提供了一些高质量的数据集。Scikit-learn(sklearn)是一个建立在SciPy之上的Python机器学习包。其独特之处在于其拥有大量的算法、十分易用以及能够与其他Python库进行整合。

什么是 "Sklearn数据集"?

Sklearn数据集作为scikit-learn(sklearn)库的一部分,是预先安装在库中的。我们可以轻松地访问和加载这些数据集,不需要单独下载它们。

要使用这些其中一个特定的数据集,可以简单地从sklearn.datasets模块中导入,并调用适当的函数将数据加载到程序中。

这些数据集通常都是经过预处理的,可以随时使用,这对于需要试验不同机器学习模型和算法的数据科学家来说,可以节省大量时间和精力。

1. Iris

这个数据集包括150朵鸢尾花的萼片长度、萼片宽度、花瓣长度和花瓣宽度的测量值,这些花属于三个不同的物种:Setosa、versicolor和virginica。鸢尾花数据集有150行和5列,以dataframe的形式存储。

  • Sepal.Length - 表示萼片的长度,单位是厘米。
  • Sepal.Width - 萼片的宽度,单位是厘米。
  • Petal.Length - 表示花瓣的长度(厘米)。
  • Species - 代表鸢尾花的种类,有三个可能的值:setosa、versicolor和virginica。

可以使用sklearn.datasets模块的load_iris函数直接从sklearn加载鸢尾花数据集。

# To install sklearn
pip install scikit-learn

# To import sklearn
from sklearn.datasets import load_iris

# Load the iris dataset
iris = load_iris()

# Print the dataset description
print(iris.describe())
复制代码

这段使用sklearn加载Iris数据集的代码。 于2023年3月27日从scikit-learn.org/stable/modu… 获取

2. Diabetes

这个sklearn数据集包含了442名糖尿病患者的信息,包括个人数据和临床测量值:

  • 年龄
  • 性别
  • 身体质量指数(BMI)
  • 平均血压
  • 六项血清测量(如总胆固醇、低密度脂蛋白(LDL)胆固醇、高密度脂蛋白(HDL)胆固醇)。
  • 糖尿病疾病进展的定量测量(HbA1c)。

糖尿病数据集可以使用sklearn.datasets模块的load_diabetes()函数加载。

from sklearn.datasets import load_diabetes

# Load the diabetes dataset
diabetes = load_diabetes()

# Print some information about the dataset
print(diabetes.describe())
复制代码

上面是使用sklearn加载糖尿病数据集的代码。于2023年3月28日从scikit-learn.org/stable/data… 获取。

3. Digits

这个sklearn数据集是一个从0到9的手写数字的集合,存储为灰度图像。它总共包含1797个样本,每个样本是一个形状为(8,8)的二维阵列。在 Digits 数据集中有64个变量(或特征),对应于每张数字图像的64个像素。

from sklearn.datasets import load_digits

# Load the digits dataset
digits = load_digits()

# Print the features and target data
print(digits.data)
print(digits.target)

复制代码

上面是使用sklearn加载Digits数据集的代码。与2023年3月29日从scikit-learn.org/stable/data… 获取。

 

4. Linnerud

Linnerud数据集包含了20名职业运动员的身体和生理测量数据。

该数据集包括以下变量:

  • 三个身体锻炼变量--引体向上、仰卧起坐和跳远。
  • 三个生理测量变量--脉搏、收缩压和舒张压。

使用sklearn在Python中加载Lin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丶张豪哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值