数据科学领域21个免费获取数据集的网站

EAI2

已于 2022-04-04 13:25:33 修改

阅读量8.7k

点赞数 1

分类专栏：数据挖掘（Data Mining）文章标签：大数据人工智能数据挖掘

于 2020-09-18 22:26:49 首次发布

本文链接：https://blog.csdn.net/weixin_39653948/article/details/108670473

版权

数据挖掘（Data Mining）专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一系列高质量数据集来源，涵盖数据可视化、机器学习等多个领域，适用于不同需求的数据科学项目。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：LINK
作者：Vik Paruchuri

Part I：数据可视化

一个典型的数据可视化项目可能类似于“制作一张有关美国不同州的收入变化情况的信息图”。为数据可视化项目寻找良好的数据集时，需要牢记一些注意事项：

它不应该太凌乱，因为不用花费很多时间来清理数据。
它应该细微而有趣，足以制作图表。
理想情况下，每一列都应得到充分解释，以便可视化是准确的。
数据集不应有太多的行或列，因此很容易使用。

新闻站点公开发布其数据，这是为数据可视化项目找到良好数据集的好地方。他们通常会为您清除数据，并且已经制作了可以复制或改进的图表。

1. FiveThirtyEight

FiveThirtyEight是由Nate Silver创办的一个非常受欢迎的互动新闻和体育网站。他们写了有趣的数据驱动文章，例如“2016 NFL预测”。FiveThirtyEight可在Github上在线使用其文章中使用的数据集。

【查看FiveThirtyEight数据集】

2. BuzzFeed

BuzzFeed最初是提供低质量文章的提供商，但此后发展壮大，现在撰写了一些调查性文章，例如“统治世界的法院”和“ Deonte Hoard的短暂人生”。BuzzFeed可在Github上提供其文章中使用的数据集。

【查看BuzzFeed数据集】

3. NASA

NASA是政府资助的政府组织，因此其所有数据都是公开的。任何人都可以在该网站上下载与地球科学有关的数据集以及与空间有关的数据集。例如，您甚至可以在地球科学网站上按格式排序，以查找所有可用的CSV数据集。

Part II：数据处理

有时，您只想使用大型数据集。最终结果与读取和分析数据的过程无关紧要。您可以使用Spark或Hadoop之类的工具在多个节点之间分配处理。寻找良好的数据处理数据集时要记住的事情：

数据越干净越好-清理大型数据集可能非常耗时。
数据集应该很有趣。
数据应该可以揭示一些现象。

4. AWS公共数据集

Amazon在其Amazon Web Services平台上提供了大数据集。您可以下载数据并在自己的计算机上使用它，或者通过EMR使用EC2和Hadoop 在云中分析数据。

Amazon的页面列出了所有数据集供您浏览。您将需要一个AWS账户，尽管Amazon为您提供了新账户的免费访问层，使您能够免费浏览数据。

【查看AWS公共数据集】

5. Google公开数据集

像亚马逊一样，谷歌也有一个云托管服务，叫做谷歌云平台。借助GCP，您可以使用一个称为BigQuery的工具来浏览大型数据集。

Google会在页面上列出所有数据集。您需要注册一个GCP帐户，但是您进行的前1TB查询是免费的。

【查看Google公开数据集】

6. 维基百科

维基百科是一个免费的，在线的，社区编辑的百科全书。维基百科涵盖了令人惊讶的知识广度，其中包括从奥斯曼帝国-哈布斯堡王朝战争到伦纳德·尼莫伊的所有内容的页面。作为Wikipedia致力于增进知识的承诺的一部分，他们免费提供其所有内容，并定期生成该站点上所有文章的转储。此外，Wikipedia还提供编辑历史和活动，因此您可以跟踪主题页面随时间的演变以及贡献者。

您可以在Wikipedia网站上找到各种下载数据的方法。您还将找到以各种方式重新格式化数据的脚本。

【查看维基百科数据集】

3. Part III：机器学习

在进行机器学习项目时，您希望能够从数据集中的其他列中预测出一列。为了能够做到这一点，我们需要确保：

数据集不会太乱。
有一个有趣的目标列可以进行预测。
其他变量对目标列具有一定的解释能力。

有一些专门用于机器学习的在线数据存储库。这些数据集通常会事先清理，并允许非常快速地测试算法。

7. Kaggle

Kaggle是一个托管机器学习竞赛的数据科学社区。该站点上有各种外部提供的有趣数据集。Kaggle既有现场比赛，也有历史比赛。您可以下载任何一种的数据，但必须注册Kaggle并接受比赛的服务条款。

您可以通过参加比赛从Kaggle下载数据。每个比赛都有自己的关联数据集。在新的Kaggle数据集产品中还可以找到用户提供的数据集。

【查看Kaggle数据集】【查看Kaggle比赛】

8. UCI机器学习存储库

在UCI机器学习库是在网络上的数据集的最古老的来源之一。尽管数据集是用户提供的，因此具有不同级别的文档和整洁度，但是绝大多数数据集都是干净的，随时可以应用机器学习。当寻找有趣的数据集时，UCI是一个很好的第一站。

您可以直接从UCI机器学习存储库下载数据，而无需注册。这些数据集通常很小，并且没有太多细微差别，但对于机器学习很有用。

【查看UCI机器学习存储库】

9. Quandl

Quandl是经济和金融数据的存储库。其中一些信息是免费的，但许多数据集需要购买。Quandl对于建立模型以预测经济指标或股票价格很有用。由于大量可用数据集，有可能建立一个复杂的模型，该模型使用许多数据集来预测另一个数据集的值。

【查看Quandl数据集】

Part IV：数据清洗

有时，将数据集散布到多个文件中，清洗它们，将它们压缩为一个然后进行一些分析可能会非常令人满意。在数据清洗项目中，有时需要花费数小时的时间才能弄清楚数据集中每一列的含义。有时可能会发现，您正在分析的数据集并不真正适合您要尝试执行的操作，因此您需要重新开始。

在为数据清洗项目寻找良好的数据集时，您希望它：

分布在多个文件中。
有很多细微差别，可以采取许多可能的角度。
需要大量的研究才能理解。
尽可能地“真实”。

这些类型的数据集通常在数据集的聚合器上找到。这些聚合器往往具有来自多个来源的数据集，而没有太多的管理。过多的整理会给我们提供过于整洁的数据集，很难对它们进行大量清洗。

10. data.world

data.world在“数据人的社交网络”中描述了自己，但可以更正确地描述为“数据人的GitHub”。在这里您可以搜索，复制，分析和下载数据集。此外，您可以将数据上传到data.world并与他人协作。

在相对较短的时间内，它已成为获取数据的“去处”之一，其中包含大量用户贡献的数据集以及通过数据获得的奇妙数据集。world与各种组织的合作伙伴关系包括来自美国的大量数据联邦政府。

data.world的一个主要与众不同之处在于，它们建立了使数据处理更轻松的工具-您可以在其界面中编写SQL查询来探索数据并加入多个数据集。他们还具有适用于R python的SDK，可以更轻松地在您选择的工具中获取和使用数据（您可能有兴趣阅读有关data.world Python SDK的教程）。

【查看data.world数据集】

11. Data.gov

Data.gov是一个相对较新的网站，是美国致力于开放政府的一部分。Data.gov使得可以从多个美国政府机构下载数据。数据范围从政府预算到学校成绩。许多数据需要进一步研究，有时可能很难找出哪个数据集是“正确的”版本。任何人都可以下载数据，尽管某些数据集需要跳过额外的限制，例如同意许可协议。

您无需注册即可直接在Data.gov上浏览数据集。您可以按主题区域浏览，或搜索特定的数据集。

【查看Data.gov数据集】

12. 世界银行

世界银行是一个全球发展组织，向发展中国家提供贷款和咨询。世界银行定期为发展中国家的计划提供资金，然后收集数据以监测这些计划的成功。

您无需注册即可直接浏览世界银行数据集。数据集缺少许多值，有时需要单击几次才能真正获得数据。

【查看世界银行数据集】

13. reddit

Reddit是一个受欢迎的社区讨论站点，其中有一个专门用于共享有趣数据集的部分。它称为数据集subreddit。这些数据集的范围变化很大，因为它们都是用户提交的，但它们往往非常有趣且细微。

您可以在此处浏览subreddit 。您还可以在此处查看最高评价的数据集。

14. Academic Torrents

Academic Torrents是一个新站点，旨在共享科学论文的数据集。这是一个较新的站点，因此很难说出最常见的数据集类型是什么样。目前，它具有大量缺少上下文的有趣数据集。

您可以直接在网站上浏览数据集。由于这是一个洪流站点，因此可以立即下载所有数据集，但是您需要一个Bittorrent客户端。Deluge是一个不错的免费选择。

【查看数据集】

Part V：在线数据

当您构建数据科学项目以下载数据集然后对其进行处理时，这是很常见的。但是，随着在线服务生成越来越多的数据，实时生成的数量越来越多，并且无法以数据集形式使用。这样的例子包括Twitter的推文数据和股价数据。没有很多好的资源可以获取这种数据，但是如果您想尝试流数据项目，我们将列出其中的一些。

15. Twitter

Twitter具有良好的流API，并且使过滤和流推文相对简单。您可以从这里开始。这里有很多选择-您可以找出最快乐的州，或者哪个国家使用最复杂的语言。使用Twitter的API请参考这篇文章。

16. Github

Github有一个API，允许您访问存储库活动和代码。您可以在此处开始使用API 。选项无穷无尽-您可以构建一个系统来自动对代码质量进行评分，或者弄清楚大型项目中代码随时间的变化。

【开始使用Github API】

17. Quantopian

Quantopian是一个可以开发，测试和操作股票交易算法的站点。为了帮助您做到这一点，他们为您提供了免费的分钟分钟价格数据。您可以构建一个股价预测算法。

【Quantopian入门】

18. Wunderground

Wunderground具有用于天气预报的API，每天可以释放多达500个API调用。您可以使用这些调用来建立一组历史天气数据，并对明天的天气进行预测。

【Wunderground API入门】

Part VI：个人信息

互联网上充满了您可以使用的出色数据集。但是对于真正独特的东西，如何分析自己的个人数据呢？这是一些受欢迎的网站，这些网站可以下载和处理您生成的数据。

19. Amazon

Amazon允许您下载个人支出数据，订单历史记录等。要访问它，请单击此链接（您需要先登录才能运行），或导航到右上角的“帐户和列表”按钮。在下一页上，找到“订购和购物首选项”部分，然后单击标题下的“下载订购报告”链接。

这是一个简单的数据项目教程，您可以使用自己的Amazon数据来分析您的消费习惯。

20. Facebook

Facebook还允许您下载个人活动数据。要访问它，请单击此链接（您需要先登录才能运行），然后选择要下载的数据类型。

这是您可以使用自己的个人Facebook数据构建的简单数据项目的示例。

21. Netflix

Netflix允许您请求自己的数据进行下载，尽管这会使您不胜枚举，并警告整理数据的过程可能需要30天。截至上次检查时，它们允许您下载的数据非常有限，但仍可能适合某些类型的项目和分析。