【Baiyango】sklearn中的数据集dataset(一)


dataset官网链接:https://scikit-learn.org/stable/datasets/index.html

一、Toy dataset

1、【回归】波士顿房价数据集 load_boston
2、【分类】鸢尾花数据集 load_iris
3、【回归】糖尿病数据集 load_diabetas
4、【分类】手写数字数据集 load_digits
5、【回归】linnerud数据集 load_linnerud
6、【分类】红酒数据集 load_wine
7、【分类】乳腺癌数据集 load_breast_cancer

二、Real world datasets

1、Olivetti人脸数据集

from sklearn.datasets import fetch_olivetti_faces 

数据集中的图片于1992年4月至1994年4月在剑桥at&T实验室拍摄。40个不同的被试有10幅不同的照片。这些照片是在不同的时间拍摄的,这些照片会改变光线、面部表情(睁开/闭上眼睛、微笑/不微笑)和面部细节(戴眼镜/不戴眼镜)。所有的图像都是在一个黑暗均匀的背景下拍摄的,受试者处于直立、正面的位置(允许有一些侧移)。

2、20个新闻组文档数据集

代码见官网及下面的链接

数据集包含大约20个主题的18000个新闻组文档,用于文本分类、文本挖据和信息检索研究。
参考:https://blog.csdn.net/imstudying/article/details/77876159

3、户外人脸数据集

from sklearn.datasets import fetch_lfw_people

此数据集是通过互联网收集的名人JPEG图片的集合,所有详细信息可在官方网站上获取:http://vis-www.cs.umass.edu/lfw/
用于人脸识别研究。

4、森林覆盖类型数据集

from sklearn.datasets import fetch_covtype

该数据集中的样本对应于美国30×30m的森林样本。每个样本有54个特征,在数据集的主页上有描述:https://archive.ics.uci.edu/ml/datasets/Covertype
用于多分类问题。

5、RCV1数据集

from sklearn.datasets import fetch_rcv1

路透社语料库第一卷(RCV1)是一个超过80万手动分类的新闻热线故事档案,由路透社有限公司提供,用于研究目的。有关数据集的详细说明,请参见
[1]Lewis, D. D., Yang, Y., Rose, T. G., & Li, F. (2004). RCV1: A new benchmark collection for text categorization research. The Journal of Machine Learning Research, 5, 361-397.

6、Kddcup 99数据集

from sklearn.datasets import fetch_kddcup99 

网络入侵检测数据库
1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的 TCPdump(*) 网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些TCPdump采集的原始数据被分为两个部分:7周时间的训练数据 (**) 大概包含5,000,000多个网络连接记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。

一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。
参考至:https://blog.csdn.net/u010913001/article/details/51383467

7、加利福尼亚住房数据

from sklearn.datasets import fetch_california_housing

这个数据集来自1990年的美国人口普查,每个普查区块组使用一行数据。区块组是美国人口普查局发布样本数据的最小地理单位(一个区块组的人口通常为600到3000人)。
数据集来自:http://lib.stat.cmu.edu/datasets/

三、Generated datasets

(1)Generators for classification and clustering(分类和聚类)
Single label
Multi label
Biclustering
(2)Generators for regression(回归)
(3)Generators for manifold learning(流行学习)
感兴趣的参考:https://www.cnblogs.com/jiangxinyang/p/9314256.html
(4)Generators for decomposition(分解)
矩阵分解

四、 Loading other datasets

简介嘛,下次一定! 0_o
(1)Sample images
(2)Datasets in svmlight / libsvm format
(3)Downloading datasets from the openml.org repository
(4)Loading from external datasets

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值