diabetes数据集_用于不平衡分类的标准机器学习数据集-不平衡分类系列教程(四)...

本文介绍了几个标准的机器学习数据集,它们适用于处理不平衡分类问题,包括二进制分类和多类分类。例如,Pima印第安人糖尿病数据集、Haberman乳腺癌数据集和德国信贷数据集等。这些数据集已被广泛研究,可用于不平衡学习的实验和基准测试。
摘要由CSDN通过智能技术生成

作者: Jason Brownlee

编译:Florence Wong - AICUG

本文系AICUG翻译原创,如需转载请注明出处或联系(微信号:834436689)

不平衡的分类问题是涉及预测类别标签的问题,该类别标签中在训练数据集中的分布是偏态的。

许多现实世界中的分类问题具有不平衡类的分布,因此对于机器学习从业者来说,熟悉处理这类问题非常重要。

在本教程中,您将发现一套用于不平衡分类的标准机器学习数据集。

完成本教程后,您将知道:

  • 具有两类不平衡的标准机器学习数据集。
  • 具有偏斜分布的多类分类的标准数据集。
  • 用于机器学习竞赛的一些流行的不平衡分类数据集。

3a84960bd21142851874dfc887d36238.png
图片作者:Graeme Churchard

教程概述

本教程分为三个部分:

  1. 二进制分类数据集
  2. 多类分类数据集
  3. 竞争和其他数据集

二进制分类数据集

二进制分类预测建模问题是关系两个类别的。

通常,不平衡的二进制分类问题描述了正常状态(0类)和异常状态(1类),例如欺诈,诊断或故障。

在本节中,我们将仔细研究三个具有类不平衡性的标准二进制分类机器学习数据集。这些数据集足够小以适合存储,并且已经过充分研究,为许多研究论文提供了研究基础。

这些数据集的名称如下:

  • 皮马(Pima)印第安人糖尿病(Pima)
  • 哈伯曼(Haberman)乳腺癌(Haberman)
  • 德国信贷(德)

每个数据集都将被加载,并总结分类不平衡的性质。

皮马印第安人糖尿病(Pima)

每条记录都描述了一位女性的医学细节,并且预测是未来五年内糖尿病的发作。

  • 更多详细信息: pima-indians-diabetes.names(下载附后)
  • 数据集:pima-indians-diabetes.csv(下载附后)

下面提供了数据集前五行的示例。

…
6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1
...

下面的示例加载并总结了数据集的类细分。

…
# Summarize the Pima Indians Diabetes dataset
from numpy import unique
from pandas import read_csv
# load the dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv'
dataframe = read_csv(url, header=None)
# get the values
values = dataframe.values
X, y = values[:, :-1], values[:, -1]
# gather details
n_rows = X.shape[0]
n_cols = X.shape[1]
classes = unique(y)
n_classes = len(classes)
# summarize
print('N Examples: %d' % n_rows)
print('N Inputs: %d' % n_cols)
print('N Classes: %d' % n_classes)
print('Classes: %s' % classes)
print('Class Breakdown:')
# class breakdown
breakdown = ''
for c in classes:
	total = len(y[y == c])
	ratio = (total / float(len(y))) * 100
	print(' - Class %s: %d (%.5f%%)' % (str(c), total, ratio))
…

运行示例将提供输出以下结果。

…
N Examples: 768
N Inputs: 8
N Classes: 2
Classes: [0. 1.]
Class Breakdown:
 - Class 0.0: 500 (65.10417%)
 - Class 1.0: 268 (34.89583%)
…

哈伯曼(Haberman)乳腺癌(Haberman)

每条记录描述了患者的医疗细节,并且预测患者是否在五年后依然存活。

  • 更多详细信息:haberman.names (下载附后)
  • 数据集:haberman.csv (下载附后)
  • 额外信息:http://archive.ics.uci.edu/ml/datasets/haberman's+survival

下面提供了数据集前五行的示例。

…
30,64,1,1
30,62,3,1
30,65,0,1
31,59,2,1
31,65,4,1
...

下面的示例加载并总结了数据集的类细分。

…
# Summarize the Haberman Breast Cancer dataset
from numpy import unique
from pandas import read_csv
# load the dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
dataframe = read_csv(url, header=None)
# get the values
values = dataframe.values
X, y = values[:, :-1], values[:, -1]
# gather details
n_rows = X.shape[0]
n_cols = X.shape[1]
classes = unique(y)
n_classes = len(classes)
# summarize
print('N Examples: %d' % n_rows)
print('N Inputs: %d' % n_cols)
print('N Classes: %d' % n_classes)
print('Classes: %s' % classes)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值