diabetes数据集_用于不平衡分类的标准机器学习数据集-不平衡分类系列教程（四）...

最新推荐文章于 2024-01-25 20:41:42 发布

weixin_39706561

最新推荐文章于 2024-01-25 20:41:42 发布

阅读量1.2k

点赞数

文章标签： diabetes数据集

本文链接：https://blog.csdn.net/weixin_39706561/article/details/112111573

版权

本文介绍了几个标准的机器学习数据集，它们适用于处理不平衡分类问题，包括二进制分类和多类分类。例如，Pima印第安人糖尿病数据集、Haberman乳腺癌数据集和德国信贷数据集等。这些数据集已被广泛研究，可用于不平衡学习的实验和基准测试。

摘要由CSDN通过智能技术生成

作者： Jason Brownlee

编译：Florence Wong - AICUG

本文系AICUG翻译原创，如需转载请注明出处或联系（微信号：834436689）

不平衡的分类问题是涉及预测类别标签的问题，该类别标签中在训练数据集中的分布是偏态的。

许多现实世界中的分类问题具有不平衡类的分布，因此对于机器学习从业者来说，熟悉处理这类问题非常重要。

在本教程中，您将发现一套用于不平衡分类的标准机器学习数据集。

完成本教程后，您将知道：

具有两类不平衡的标准机器学习数据集。
具有偏斜分布的多类分类的标准数据集。
用于机器学习竞赛的一些流行的不平衡分类数据集。

图片作者：Graeme Churchard

教程概述

本教程分为三个部分：

二进制分类数据集
多类分类数据集
竞争和其他数据集

二进制分类数据集

二进制分类预测建模问题是关系两个类别的。

通常，不平衡的二进制分类问题描述了正常状态（0类）和异常状态（1类），例如欺诈，诊断或故障。

在本节中，我们将仔细研究三个具有类不平衡性的标准二进制分类机器学习数据集。这些数据集足够小以适合存储，并且已经过充分研究，为许多研究论文提供了研究基础。

这些数据集的名称如下：

皮马（Pima）印第安人糖尿病（Pima）
哈伯曼（Haberman）乳腺癌（Haberman）
德国信贷（德）

每个数据集都将被加载，并总结分类不平衡的性质。

皮马印第安人糖尿病（Pima）

每条记录都描述了一位女性的医学细节，并且预测是未来五年内糖尿病的发作。

更多详细信息： pima-indians-diabetes.names（下载附后）
数据集：pima-indians-diabetes.csv（下载附后）

下面提供了数据集前五行的示例。

…
6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1
...

下面的示例加载并总结了数据集的类细分。

…
# Summarize the Pima Indians Diabetes dataset
from numpy import unique
from pandas import read_csv
# load the dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv'
dataframe = read_csv(url, header=None)
# get the values
values = dataframe.values
X, y = values[:, :-1], values[:, -1]
# gather details
n_rows = X.shape[0]
n_cols = X.shape[1]
classes = unique(y)
n_classes = len(classes)
# summarize
print('N Examples: %d' % n_rows)
print('N Inputs: %d' % n_cols)
print('N Classes: %d' % n_classes)
print('Classes: %s' % classes)
print('Class Breakdown:')
# class breakdown
breakdown = ''
for c in classes:
	total = len(y[y == c])
	ratio = (total / float(len(y))) * 100
	print(' - Class %s: %d (%.5f%%)' % (str(c), total, ratio))
…

运行示例将提供输出以下结果。

…
N Examples: 768
N Inputs: 8
N Classes: 2
Classes: [0. 1.]
Class Breakdown:
 - Class 0.0: 500 (65.10417%)
 - Class 1.0: 268 (34.89583%)
…

哈伯曼（Haberman）乳腺癌（Haberman）

每条记录描述了患者的医疗细节，并且预测患者是否在五年后依然存活。

更多详细信息：haberman.names (下载附后)
数据集：haberman.csv （下载附后）
额外信息：http://archive.ics.uci.edu/ml/datasets/haberman's+survival

下面提供了数据集前五行的示例。

…
30,64,1,1
30,62,3,1
30,65,0,1
31,59,2,1
31,65,4,1
...

下面的示例加载并总结了数据集的类细分。

…
# Summarize the Haberman Breast Cancer dataset
from numpy import unique
from pandas import read_csv
# load the dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
dataframe = read_csv(url, header=None)
# get the values
values = dataframe.values
X, y = values[:, :-1], values[:, -1]
# gather details
n_rows = X.shape[0]
n_cols = X.shape[1]
classes = unique(y)
n_classes = len(classes)
# summarize
print('N Examples: %d' % n_rows)
print('N Inputs: %d' % n_cols)
print('N Classes: %d' % n_classes)
print('Classes: %s' % classes)