Awesome Public Datasets
此高质量的以主题为中心的公共数据源列表。它们是从博客,答案和用户响应中收集和整理的。下面列出的大多数数据集都是免费的,但是有些不是。其他惊人的超赞列表可以在sindresorhus的超赞列表中找到。
https://github.com/awesomedata/awesome-public-datasets
nlp-datasets
用于自然语言处理(NLP)的具有文本数据的自由/公共领域数据集的字母顺序列表。如果您正在寻找带注释的语料库或树库,请参阅底部的源,此处的大多数内容只是原始的非结构化文本数据。
https://github.com/niderhoff/nlp-datasets
查找数据科学项目的免费数据集的19个地方
在本文中,我们将逐步介绍几种类型的数据科学项目,包括数据可视化项目,数据清理项目和机器学习项目,并找出合适的位置来查找每个项目的数据集。无论您是想通过证明自己可以很好地可视化数据来增强数据科学产品组合,还是要有空闲时间来练习机器学习技能,我们都能满足您的要求。
https://www.dataquest.io/blog/free-datasets-for-projects/
最全数据集网站汇总,绝对是一个金矿请查收!
本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。
https://blog.csdn.net/r6Auo52bK/article/details/80105751
各领域公开数据集下载
整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。
https://zhuanlan.zhihu.com/p/25138563
16个推荐系统开放公共数据集整理分享
本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。
https://blog.csdn.net/hellozhxy/article/details/81275133
25种开放式数据集,供深度学习每个数据科学家必须使用的数据集
在本文中,我们列出了一组高质量的数据集,每个深度学习爱好者都应努力应用这些数据集并提高其技能。处理这些数据集将使您成为一名更好的数据科学家,而您将获得的学习量对于您的职业而言将是无价的。我们还提供了具有最新技术(SOTA)结果的论文,供您浏览和改进模型。
计算机电子书 2019 归档
https://blog.csdn.net/wizardforcel/article/details/103793502
比赛数据集
比赛数据集大部分需要注册参赛才能下载,有些数据还是加过密的,所以需要自己挑选能用于实验的。
- kaggle:https://www.kaggle.com/competitions
- 天池:https://tianchi.aliyun.com/competition/gameList/activeList
- 天池数据集:https://tianchi.aliyun.com/dataset/
- DC竞赛:https://www.pkbigdata.com/common/cmptIndex.html
- TinyMind:https://www.tinymind.cn/
- biendata:https://www.biendata.com/
- ……
有哪些一般人不知道的数据获取方式(收藏)
在这里给大家推荐一些能够用上数据获取方式,有了这些资源,不仅可以在数据收集的效率上能够得到很大的提升,同时也可以学习更多思维方式。
https://mp.weixin.qq.com/s/Lggp4sBux_FFnC3m8xEWIA
如何快速成为数据分析师?
公开数据集
https://www.zhihu.com/question/29265587
爬虫
如果没有想要的数据集,比如网站数据、微博数据等,那就只好爬虫啦,自己动手,丰衣足食!
- python:beautifulsoap
- 八爪鱼
- ……
其他
欢迎补充其他高质量公开数据集!