如何寻找数据集?

如何寻找数据集?

除了医疗领域之外,其他领域的数据集有时也很难获取,这就需要我们掌握一些常见的数据集搜集方法和常用资源。最近,Medium 上的一位博主介绍了多个常用的数据集获取来源:

1 Awesome Data

这是一个 GitHub 存储库,包含多个不同类别的数据集。

链接:https://github.com/awesomedata/awesome-public-datasets

2 Data Is Plural

这是一个以电子表格形式展示的数据集资源,从 2015 年开始定期更新,最新一期是 2020 年 10 月 28 日的资源,因此有些资源非常新。

链接:https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0

3 Kaggle Datasets

Kaggle Datasets 提供了关于很多数据集的预览和总结性信息,非常适合用来检索特定主题的数据集。

链接:https://www.kaggle.com/datasets

4 Data.world

和 Kaggle 一样,Data.world 提供了一系列用户贡献的数据集,还为公司存储和组织自己的数据提供了平台。

链接:https://data.world/

5 Google Dataset Search

数据集搜索 是谷歌 2018 年推出的一个新搜索功能。如果你正在寻找特定主题或特定来源的数据,这个工具值得一试。

链接:https://datasetsearch.research.google.com/

6 OpenDaL

OpenDal 也是一个数据集搜索工具,你可以利用多种方式进行搜索,如根据创建时间或框定地图上的某一区域。

链接:https://opendatalibrary.com/

7 Pandas Data Reader

Pandas Data Reader 可以帮助你拉取在线资源中的数据,然后将其用到 Python pandas DataFrame 中。这里大部分是金融数据。

链接:https://pandas-datareader.readthedocs.io/en/latest/remote_data.html

8 从 API 获取数据

利用 Python 从 API 获取数据也是数据科学家常用的一种方法,具体操作步骤可以参见以下教程。
链接:https://towardsdatascience.com/how-to-get-data-from-apis-with-python-dfb83fdc5b5b

参考链接:
https://towardsdatascience.com/the-top-10-best-places-to-find-datasets-8d3b4e31c442

  • 13
    点赞
  • 117
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值