各类数据集整理(持续更新中ing)

转自:https://zhuanlan.zhihu.com/p/84088095

最近一次新增:2020.02.11

大家好,先给各位抱拳了!我是和鲸(科赛 http://kesci.com)的运营一枚,今天给大家分享以下我们(通过网线)奔波世界各地搜集过来的数据集们!

大家有想要的也可以在评论区许愿,我去求捞数据集的小哥哥小姐姐们帮帮忙

另外打一波硬广,以下所有数据集都可以在和鲸(科赛 http://kesci.com)的K-Lab产品中直接挂在项目中使用,无需下载。现还有另有免费计算资源可以薅。

请猛戳链接访问>>>和鲸(科赛 kesci.com)<<<

 

——结构化数据——

交通:

Pronto共享单车数据集(70.8MB)

欧州航空旅客运输季度数据集(更新至2019第二季度)(63KB)

2015年美国✈️✈️航班延误或取消数据集(192.3MB)

明尼阿波里斯市交通流量数据(3.1MB)

航班动态起降数据集(2GB)

交通卡口过车数据数据集(100G)

Uber 纽约市乘车数据(109.1MB)

气象:

中国历年台风最佳路径数据

1750年至今全球地表气温变化数据

1965-2016全球重大地震数据(2.3MB)

El Nino厄尔尼诺数据集(9.6MB)

中国气象数据(675.1MB)

北京空气质量数据(21.5MB)

中国空气质量数据集(1.2GB)

澳大利亚山火数据集(100+MB)

1750年至今全球地表气温变化数据(84MB)

能源:

全球能源之风力预测数据集(24.5MB)

风力发电机数据集(12.3MB)

2010年芝加哥能源使用情况(26.3MB)

中国水资源数据集(130KB+)

镇江电力数据(17.7MB)

安全:

CNNVD中国信息安全漏洞数据库

NVD美国国家通用漏洞数据库(335MB+)

NSL_KDD数据集(25.3MB)

KDD-CUP99网络入侵检测数据集(220MB+)

医学:

心脏病诊断数据集(17.6KB)

骨科患者的生物力学特征数据集(24.4KB)

埃博拉数据集(1.3MB)

癫痫发作识别数据集(7.3MB)

1000个12导联ECG心电图数据集(70.7MB)

宫颈癌风险因素数据集(99.7KB)

手势检测数据集(16.9MB)

帕金森疾病诊断数据集(5.1MB)

心脏病相关数据集(11.1KB)

基于重症监护室(ICU)多生命体征,预测脓毒症(21.1KB)

内置动脉插管数据集(288.7KB)

埃及患者的丙型肝炎病毒(HCV)数据集(158KB)

急性肝功能衰竭预测数据集(848.6KB)

心血管疾病数据集(2.8MB)

新型冠状病毒(2019-nCoV)疫情时间序列数据集(1.8MB)

游戏:

英雄联盟英雄数据(253.6KB)

Steam游戏汇总

100万数独游戏(156.4MB)

守望先锋英雄数据集(53.4KB)

Dota2游戏结果数据集(21.3MB)

王者荣耀英雄数据集(7.8KB)

包含用户行为的Steam游戏数据集(8.5MB)

经济金融:

拍拍贷互联网金融数据(320MB)

P2P信贷平台业务数据(400MB+)

我国主要城市年度数据-产值、人口、就业、教育等(10KB)

4万条信用贷款业务、4千条现金贷业务脱敏数据

上证A股个股日线数据(187.6MB)

信用卡评分模型构建数据(7.2MB)

1978至今的黄金价格数据(187.8KB)

成人人口普查收入的相关信息(3.9MB)

金融风险预测数据集(2.1MB)

9000条信用卡使用情况数据(881.7KB)

中国工商企业注册信息数据集(559.4MB)

加密货币市场价格(39.0MB)

常用汇率过去3年的历史数据(31.6KB)

信用卡欺诈检测数据集(143.8MB)

信用违约概率预测 | Kaggle(7.2MB)

银行电话营销数据集(2.1MB)

LendingClub贷款数据(421.3MB)

比特币历史交易数据(221.1MB)

Dow Jones 股票日结算数据(1.6MB)

S&P 500股价数据(128.1MB)

PyPortfolioOpt股票价格(1.1MB)

特斯拉股票价格(168.7KB)

苹果股票市场数据历史记录(41.2KB)

7家顶级公司的收购数据(69.4KB)

2019年全球七百多万个公司的数据(275.1MB)

美国医疗保险市场数据(778.8MB)

🇮🇳🇮🇳印度贸易数据(19.0MB)

30家在美国的大型公司的道琼斯指数数据(2.7MB)

最近十年谷歌的股票价格数据集(165.5KB)

桑坦德银行顾客交易预测数据(244.3MB)

欧元兑换国际主要货币的汇率日数据(更至2019.9.26)(2.9MB)

众筹网站Kickstarter项目数据集(55.3MB)

MT4历史数据中心各货币对外汇交易数据(905.5MB)

Santander客户价值预测数据集(31.5MB)

消费:

出行产品未来14个月销量预测数据集(61.2MB)

口红数据集(1006.6KB)

黑五购物数据集(23.8MB)

去哪儿网—旅游产品机酒数据(1.5MB)

全球米其林餐厅信息(100KB+)

适合顾客尺码推荐的服装适合数据集(150MB)

淘宝App用户行为(507.3MB)

废旧汽车价格预测数据集(611.6KB)

天猫双十一女性美妆的数据集(3.3MB)

淘宝云主题点击数据集(1.6GB)

广告实时竞价数据(455.5MB)

住房:

链家二手房数据集(5.1MB)

携程房型产品用户行为数据集(506.1MB)

房价预测(103.3KB)

阿姆斯特丹airbnb数据集(400MB+)

纽约Airbnb开放数据(6.8MB)

房价预测(103.3KB)

体育:

NBA数据集(62.3+MB)

欧洲足球联赛数据集(172.8MB)

2015-2018MLB棒球常规赛数据集(322.7MB)

120年奥运历史数据集:运动员和成绩(39.6MB)

科比生涯数据集(5.8MB)

植物:

蘑菇分类数据集(UCI Machine Learning)(365.2KB)

iris鸢尾花数据集(4.1KB)

土壤湿度的高光谱基准数据集(1.6MB)

小麦种子数据集(9.1KB)

100种植物种类🌳🌳🌳数据集(35.1MB)

天文:

不明飞行物世纪报告(14.6MB)

开普勒望远镜所标注的时间序列数据集(27.6MB)

推荐系统:

资讯内容用户行为数据集(153.3MB)

Book Crossing 推荐系统数据(24.9MB)

Jester 推荐系统数据(4MB)

预测:

人力资源分析数据集(121.5KB)

申请大学的成功率预测数据集(12.6KB)

用户点击预测数据集(516.8MB)

Netflix Price 竞赛数据集(665.7MB)

其他:

2017年-2018年 关于申根签证的数据集

垃圾分类数据(49.3KB)

豆瓣读书数据集(5.9MB)

豆瓣电影数据集(100MB+)

二战空袭数据集(27.2MB)

拉勾网上海数据分析师职位数据(497.4KB)

濒危语言统计(736.7KB)

CNNVD中国信息安全漏洞数据库

💤💤个人睡眠数据(66.1KB)

2019年世界幸福报告(6.7KB)

鲍鱼数据集(187.5KB)

鱼类毒性数据集(30.5KB)

人口普查收入数据集(UCI)(3.4MB)

TMDB 5000部电影数据集(40MB+)

 

 

——NLP大类——

6000条周杰伦微博超话数据(1.1MB)

2016-2019新闻联播语料库(11.3MB)

中文谣言语料库(32.6MB)

咪蒙所有公众号文章(3.9MB)

中国对联数据集(28.2MB)

1998人民日报标注语料库(PFR)(10.2MB)

sentiment140 情感分析数据集(72.6KB)

人民日报文章数据集(1979-2010)(811.9MB)

人民日报文章数据集(1949-1978)(559.4MB)

中文新闻数据集(70.3MB)

《中餐厅3》19W弹幕数据(12.8MB)

IMDB电影评论数据(32.0MB)

中文医学问答数据集(85MB)

耶鲁文本转SQL语句挑战数据集(95.1MB)

淘宝某店铺电风扇评论(273.9KB)

新加坡国立大学SMS语料库(23.4MB)

豆瓣《哪吒之魔童降世》影评(85.1KB)

bilibili流行动漫影评数据(2.3MB)

6000条周杰伦微博超话数据!(1.1MB)

中文经典典籍语料

非正式汉语数据集(214.5MB)

中文对话情绪语料(1.1MB)

维基百科中文语料库(518.7MB)

频率最高的9933个最常用汉字数据集(1.0MB)

未名BBS热门话题(3.6MB)

麦当劳就餐负面评论数据集(891.1KB)

Lord of the Rings指环王数据(223.9KB)

斯坦福情绪树库:带有情感注释的标准情绪数据集(6.1MB)

关于美国的航空公司的推特的情绪分析数据集(2.6MB)

聊天语料库数据集(210.7MB)

短文本分类数据集(13.1MB)

成语阅读理解数据集(195.8MB)

论文自动评分数据集(78.8MB)

多域情感数据集(51.2MB)

翻译语料(595.9MB)

社区问答数据集(1.7GB)

中文科学文献摘要数据集(92.9MB)

维基百科英文语料库(89.0MB)

实体识别

用于命名实体识别的带注释语料库(26.4MB)

使用Lattice LSTM的中文NER数据(191.5KB)

医疗命名实体识别数据集(5.1MB)

中文实体关系抽取数据集(8.1MB)

金融信息负面及主体判定比赛数据集(17MB)

 

——CV大类——

Fashion-MNIST图像数据集(200.4MB)

车辆数据集(车辆识别与分类)(62.5MB)

垃圾分类数据集

另一个垃圾分类数据集(40.9MB)

CIFAR10数据集(148MB)

GTSRB-德国交通标志识别图像数据(253.3MB)

手势识别数据库(1.1GB)

情绪的面部表情(170MB+)

宠物图像数据集(783.5MB)

枪支目标检测(2.4MB)

人脸图像数据(294.1MB)

狗狗种类图像数据集(919.5MB)

中国交警手势数据集(1.8GB)

场景分类数据集(105.9MB)

💎💎87种宝石图片数据(50.9MB)

验证码数据集(13.5MB)

植物:

水稻叶子疾病图片集(36.7MB)

植物幼苗图片数据集

花卉识别数据集(224.9MB)

花卉图像分类

可食用野外植物数据集

气象:

飓风损害的卫星图像数据集(63MB)

从卫星图像理解云层数据集(42MB)

字符识别:

TibetanMNIST藏文手写数字数据集(53.2MB)

MNIST手写识别数据集(9.5MB)

Chars74K字符识别数据集(188.3MB)

信用卡卡面图像及标注数据(42.9MB)

手写数学表达式识别(29MB)

图片与单词匹配数据集(31.1MB)

密集不规则文本行数据集(353MB)

视觉文字识别数据集

HASY手写符号图片数据集(127.2MB)

麻将图片数据集(7.5MB)

医疗:

犬球虫病寄生虫图片集(18.1MB)

头部CT图像数据(24.4MB)

肺部CT图像数据(529.0MB)

心血管疾病预测(2.7MB)

深圳医院胸片检查掩膜图片数据集(19.8MB)

肺部CT图像数据(529MB)

行人识别:

行人检测数据集ETHZ(146MB)

行人重识别数据集Market-1501(145.7MB)

行人重识别数据集RAiD(140.1MB)

行人重识别数据集prid_2011(1015.3MB)

汽车后视摄像头视角行人数据集(799.7MB)

 

——语音大类——

Mozilla语音数据集-中文(358.2MB)

2000个英语读数字的录音(8.9MB)

  • 37
    点赞
  • 362
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
PyTorch是一种非常强大的深度学习框架,用于构建和训练神经网络。PyTorch提供了许多功能和工具来处理各种类型的数据集,包括手写数学符号数据集。 手写数学符号数据集可以包含手写的数字、字母以及常见的数学符号,如加减乘除、括号、等号等等。为了创建一个手写数学符号数据集,可以遵循以下步骤: 1. 收集数据:收集大量手写的数字、字母和符号样本。这可以通过手动书写、扫描、使用数位板等方式完成。确保收集到多样性的样本,以便模型可以更好地泛化。 2. 数据预处理:对收集到的数据进行预处理,以便输入到PyTorch模型。可以使用图像处理库如OpenCV或PIL来调整图像大小、标准化像素值、去除噪声等操作。 3. 数据标注:为每个图像样本添加标签,以指示其所代表的数学符号。可以使用整数编码或独热编码来表示不同的符号类别。 4. 数据集划分:将整个数据集划分为训练集和测试集。通常,训练集用于训练模型的参数,而测试集用于评估模型在未见过的数据上的性能。 5. 数据加载:使用PyTorch的数据加载器加载和准备数据集。PyTorch提供了便捷的数据加载器,可以帮助我们对数据进行批量处理、乱序加载等操作。 6. 构建模型:使用PyTorch构建一个适合手写数学符号识别的神经网络模型。可以选择卷积神经网络(Convolutional Neural Network,CNN)等结构。 7. 模型训练:使用训练集对模型进行训练。在训练过程,模型将尝试通过优化损失函数来准确预测手写数学符号。 8. 模型评估:使用测试集对训练好的模型进行评估,并计算模型的准确率和损失值。这可以帮助我们判断模型的性能如何。 通过以上步骤,我们可以使用PyTorch来构建、训练和评估一个手写数学符号数据集。这将有助于实现自动识别和解析手写数学符号的应用,如数学方程式识别和手写计算。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值