【sklearn实战】sklearn 数据集之 Toy datasets

scikit-learn 内置的一些小型标准数据集,不需要从某个外部网站下载任何文件。

一 鸾尾花数据集(Iris Dataset)

1.1 简介

该数据集包含了 150 个鸢尾花的数据,其中每个数据点都有 4 个变量(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个目标变量(花的种类)。该数据集最初由 R.A. Fisher 在 1936 年发布。适用于分类任务

这个著名的鸢尾花数据库最初由R.A. Fisher博士使用,数据集来自于他的论文。请注意,这与R中的数据集相同,但与UCI机器学习仓库中的数据集不同,UCI数据集中有两个错误数据点。

这可能是图案识别文献中最著名的数据库。Fisher的论文是该领域的经典之作,至今仍经常被引用。该数据集包含了3类,每类有50个实例,每个实例代表一个鸢尾花品种。其中一类可以线性分离,另外两类之间不可线性分离。

1.2 示例

加载鸾尾花数据集:

from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target
print(f"特征数量: {X.shape[1]}")
print(f"类别数量: {len(set(y))}")

二 糖尿病数据集(Diabetes dataset)

2.1 简介

主要包括442个实例,每个实例10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标,Target为一年后患疾病的定量指标, 适用于回归任务

2.2 示例

from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
print(f"特征数量: {X.shape[1]}")
print(f"患者数量: {len(y)}")

三 手写数字识别数据集(handwritten digits dataset)

3.1 简介

这个sklearn数据集是一个从0到9的手写数字的集合,存储为灰度图像。它总共包含1797个样本,每个样本是一个形状为(8,8)的二维阵列。在 Digits 数据集中有64个变量(或特征),对应于每张数字图像的64个像素。适用于分类任务

3.2 示例

from sklearn.datasets import load_digits

digits = load_digits()
X, y = digits.data, digits.target
print(f"图像数量: {len(X)}")
print(f"每张图像的特征数量: {X[0].shape[0]}")

四 体能训练数据集(Linnerrud dataset)

4.1 简介

兰纳胡德提供的体能训练数据,data和target都是20x3,data的特征包括Chins, Situps and Jumps.(引体向上 仰卧起坐 跳跃),target的三维分别是Weight, Waist and Pulse。(体重 腰围 脉搏),适用于多元回归问题,用的少

4.2 示例

from sklearn.datasets import load_linnerud
data, target = load_linnerud(return_X_y=True)
 
print(data.shape)           # (20, 3)
print(target.shape)         # (20, 3)

五 红酒数据集(Wine recognition dataset)

5.1 简介

这个sklearn数据集包含了对生长在意大利特定地区的葡萄酒进行化学分析的结果。共178个样本,代表了红酒的三个档次(分别有59,71,48个样本),以及与之对应的13维的属性数据,适用于分类任务

5.2 示例

from sklearn.datasets import load_wine

# Load the Wine dataset
wine_data = load_wine()

# Access the features and targets of the dataset
X = wine_data.data  # Features
y = wine_data.target  # Targets

# Access the feature names and target names of the dataset
feature_names = wine_data.feature_names
target_names = wine_data.target_names

六 乳腺癌数据集(Breast Cancer Wisconsin Dataset)

6.1 简介

这个sklearn数据集由乳腺癌肿瘤的信息组成,最初由William H. Wolberg博士创建。创建该数据集是为了帮助研究人员和机器学习从业者将肿瘤分类为恶性(癌症)或良性(非癌症)。适用于分类任务

6.2 示例

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X, y = cancer.data, cancer.target
print(f"特征数量: {X.shape[1]}")
print(f"样本数量: {len(y)},其中0代表良性,1代表恶性")
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据AI

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值