【sklearn实战】sklearn 数据集之 Toy datasets

大数据AI

于 2024-07-26 11:04:45 发布

阅读量365

点赞数 3

分类专栏： sklearn实战 Machine Learning 文章标签：深入Scikit-learn：掌握Python最强大的机器学习库 sklearn 机器学习

本文链接：https://blog.csdn.net/u011026329/article/details/140710365

版权

Machine Learning 同时被 2 个专栏收录

28 篇文章 2 订阅

订阅专栏

sklearn实战

2 篇文章 0 订阅

订阅专栏

scikit-learn 内置的一些小型标准数据集，不需要从某个外部网站下载任何文件。

一鸾尾花数据集（Iris Dataset）

1.1 简介

该数据集包含了 150 个鸢尾花的数据，其中每个数据点都有 4 个变量（萼片长度、萼片宽度、花瓣长度、花瓣宽度）和一个目标变量（花的种类）。该数据集最初由 R.A. Fisher 在 1936 年发布。适用于分类任务。

这个著名的鸢尾花数据库最初由R.A. Fisher博士使用，数据集来自于他的论文。请注意，这与R中的数据集相同，但与UCI机器学习仓库中的数据集不同，UCI数据集中有两个错误数据点。

这可能是图案识别文献中最著名的数据库。Fisher的论文是该领域的经典之作，至今仍经常被引用。该数据集包含了3类，每类有50个实例，每个实例代表一个鸢尾花品种。其中一类可以线性分离，另外两类之间不可线性分离。

1.2 示例

加载鸾尾花数据集：

from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target
print(f"特征数量: {X.shape[1]}")
print(f"类别数量: {len(set(y))}")

二糖尿病数据集（Diabetes dataset）

2.1 简介

主要包括442个实例，每个实例10个属性值，分别是：Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标，Target为一年后患疾病的定量指标，适用于回归任务。

2.2 示例

from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
print(f"特征数量: {X.shape[1]}")
print(f"患者数量: {len(y)}")

三手写数字识别数据集（handwritten digits dataset）

3.1 简介

这个sklearn数据集是一个从0到9的手写数字的集合，存储为灰度图像。它总共包含1797个样本，每个样本是一个形状为(8,8)的二维阵列。在 Digits 数据集中有64个变量（或特征），对应于每张数字图像的64个像素。适用于分类任务。

3.2 示例

from sklearn.datasets import load_digits

digits = load_digits()
X, y = digits.data, digits.target
print(f"图像数量: {len(X)}")
print(f"每张图像的特征数量: {X[0].shape[0]}")

四体能训练数据集（Linnerrud dataset）

4.1 简介

兰纳胡德提供的体能训练数据，data和target都是20x3，data的特征包括Chins, Situps and Jumps.(引体向上仰卧起坐跳跃)，target的三维分别是Weight, Waist and Pulse。(体重腰围脉搏)，适用于多元回归问题，用的少。

4.2 示例

from sklearn.datasets import load_linnerud
data, target = load_linnerud(return_X_y=True)
 
print(data.shape)           # (20, 3)
print(target.shape)         # (20, 3)

五红酒数据集（Wine recognition dataset）

5.1 简介

这个sklearn数据集包含了对生长在意大利特定地区的葡萄酒进行化学分析的结果。共178个样本，代表了红酒的三个档次（分别有59，71，48个样本），以及与之对应的13维的属性数据，适用于分类任务。

5.2 示例

from sklearn.datasets import load_wine

# Load the Wine dataset
wine_data = load_wine()

# Access the features and targets of the dataset
X = wine_data.data  # Features
y = wine_data.target  # Targets

# Access the feature names and target names of the dataset
feature_names = wine_data.feature_names
target_names = wine_data.target_names

六乳腺癌数据集（Breast Cancer Wisconsin Dataset）

6.1 简介

这个sklearn数据集由乳腺癌肿瘤的信息组成，最初由William H. Wolberg博士创建。创建该数据集是为了帮助研究人员和机器学习从业者将肿瘤分类为恶性（癌症）或良性（非癌症）。适用于分类任务。

6.2 示例

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X, y = cancer.data, cancer.target
print(f"特征数量: {X.shape[1]}")
print(f"样本数量: {len(y)}，其中0代表良性，1代表恶性")

大数据AI

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【sklearn实战】sklearn 数据集之 Toy datasets

该数据集包含了 150 个鸢尾花的数据，其中每个数据点都有 4 个变量（萼片长度、萼片宽度、花瓣长度、花瓣宽度）和一个目标变量（花的种类）。该数据集最初由 R.A. Fisher 在 1936 年发布。适用于分类任务。这个著名的鸢尾花数据库最初由R.A. Fisher博士使用，数据集来自于他的论文。请注意，这与R中的数据集相同，但与UCI机器学习仓库中的数据集不同，UCI数据集中有两个错误数据点。这可能是图案识别文献中最著名的数据库。Fisher的论文是该领域的经典之作，至今仍经常被引用。
复制链接

扫一扫