如何寻找数据集?
除了医疗领域之外,其他领域的数据集有时也很难获取,这就需要我们掌握一些常见的数据集搜集方法和常用资源。最近,Medium 上的一位博主介绍了多个常用的数据集获取来源:
1 Awesome Data
这是一个 GitHub 存储库,包含多个不同类别的数据集。
链接:https://github.com/awesomedata/awesome-public-datasets
2 Data Is Plural
这是一个以电子表格形式展示的数据集资源,从 2015 年开始定期更新,最新一期是 2020 年 10 月 28 日的资源,因此有些资源非常新。
链接:https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
3 Kaggle Datasets
Kaggle Datasets 提供了关于很多数据集的预览和总结性信息,非常适合用来检索特定主题的数据集。
链接:https://www.kaggle.com/datasets
4 Data.world
和 Kaggle 一样,Data.world 提供了一系列用户贡献的数据集,还为公司存储和组织自己的数据提供了平台。
链接:https://data.world/
5 Google Dataset Search
数据集搜索 是谷歌 2018 年推出的一个新搜索功能。如果你正在寻找特定主题或特定来源的数据,这个工具值得一试。
链接:https://datasetsearch.research.google.com/
6 OpenDaL
OpenDal 也是一个数据集搜索工具,你可以利用多种方式进行搜索,如根据创建时间或框定地图上的某一区域。
链接:https://opendatalibrary.com/
7 Pandas Data Reader
Pandas Data Reader 可以帮助你拉取在线资源中的数据,然后将其用到 Python pandas DataFrame 中。这里大部分是金融数据。
链接:https://pandas-datareader.readthedocs.io/en/latest/remote_data.html
8 从 API 获取数据
利用 Python 从 API 获取数据也是数据科学家常用的一种方法,具体操作步骤可以参见以下教程。
链接:https://towardsdatascience.com/how-to-get-data-from-apis-with-python-dfb83fdc5b5b
参考链接:
https://towardsdatascience.com/the-top-10-best-places-to-find-datasets-8d3b4e31c442