机器学习:常用数据集汇总

前言

    对机器学习中一些常用数据集进行汇总,欢迎评论区提供数据。多多收藏、点赞

    注:其中有些链接是用的他人分享的数据,如果作者不希望这样使用,请私信告诉我,谢谢

 

# pima-indians-diabetes #

    详情:美国国立糖尿病消化与肾病研究所搜集的皮马印第安部落中21岁以上女性的数据。

               样本包括9个特征的768个观测值(768 × 9)。

    下载数据:https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/

 

# 猫狗分类数据集 #

    详情:包括含训练集(25000张猫狗照片)和测试集(12500张猫狗照片)

    下载数据:https://pan.baidu.com/share/init?surl=vS2OsS9lPfkJO-GY3Ju3gw 提取码: vgsy

 

# hotel_bookings #

    详情:该数据集包含城市酒店和度假酒店的预订信息,并包括诸如预订的时间,停留时间,成人,儿童和/或婴儿的数量以及可用停车位的数量等信息

    下载数据:https://pan.baidu.com/s/1WBMEtBzH3fFLtEnz0c-HDg  提取码:9i9e

 

# 成都市出租车GPS记录数据 #

    详情:成都某一天出租车的部分数据。数据记录了成都市部分出租车在载客时的GPS位置和时间等信息

    下载数据:http://labfile.oss.aliyuncs.com/courses/736/taxi.csv

 

# BelgiumTS #

    详情:62种交通信号图片

    下载数据:https://btsd.ethz.ch/shareddata/

 

# Spambase #

    详情:垃圾邮件数据

    下载数据:http://archive.ics.uci.edu/ml/datasets/Spambase

spambase.csv

 

# 共享单车数据 #

    详情:美国某公司的共享单车数据

    下载数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00275/

day.csv

 

# 葡萄酒数据集 #

    详情:包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分,可以来推断葡萄酒的起源。

    下载数据:http://archive.ics.uci.edu/ml/datasets/Wine

 

# Gowalla #

    详情:Gowalla是一个基于位置的社交网站,用户可以通过签到来分享他们的位置

          数据分为两部分:

                     loc-gowalla_totalCheckins.txt 签到数据( 6,442,890 )的时间、地点、用户ID

                     loc-gowalla_edges.txt. Gowalla用户(196,591个用户)的社会关系

    下载数据:http://snap.stanford.edu/data/loc-gowalla.html

loc-gowalla_totalCheckins.txt

 

# MovieLens #

    详情:MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息[链接]

    下载数据:https://grouplens.org/datasets/movielens/

movies.csv 

 

# wholesale-customers #

    详情:批发销售数据集

    下载数据:http://networkrepository.com/wholesale-customers.php

 

# 国外数据汇总 #

    国外大神收集的100个大型机器学习数据集

    下载数据:https://www.datasetlist.com/

 

其他

 

详情

训练样本

测试样本

图像大小

MNIST

手写数字数据集

60000

10000

28*28

GTSRB

德国交通标志数据集

39209

12630

15*15~250*250

RRSI

交通路网遥感图像数据集

共30幅

 

ImageNet

超过1500万幅图像、约22000个类别数据集

 

 

 

CIFAR-10

常见物体图像数据集,10类

50000

10000

32*32(彩色)

Oxford-17

鲜花图像数据集,共1360幅、17类

 

 

不同

AR

人脸图像数据集

 

 

 

VOC2007

物体和场景的图像数据集

 

 

 

SIFT Flow

不同场景的图像数据集

2488

200

 

ADE20K

不同场景的图像数据集

20210

2000

 

COCO2014

微软制作的图像数据集

82783

40504+40504(验证集)

 

CelebA

名人人脸图像数据集

162770

19867

 

Gamerecords

围棋棋局文件数据集

4491800

100000

 

  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值