如何寻找数据集?

如何寻找数据集?

除了医疗领域之外,其他领域的数据集有时也很难获取,这就需要我们掌握一些常见的数据集搜集方法和常用资源。最近,Medium 上的一位博主介绍了多个常用的数据集获取来源:

1 Awesome Data

这是一个 GitHub 存储库,包含多个不同类别的数据集。

链接:https://github.com/awesomedata/awesome-public-datasets

2 Data Is Plural

这是一个以电子表格形式展示的数据集资源,从 2015 年开始定期更新,最新一期是 2020 年 10 月 28 日的资源,因此有些资源非常新。

链接:https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0

3 Kaggle Datasets

Kaggle Datasets 提供了关于很多数据集的预览和总结性信息,非常适合用来检索特定主题的数据集。

链接:https://www.kaggle.com/datasets

4 Data.world

和 Kaggle 一样,Data.world 提供了一系列用户贡献的数据集,还为公司存储和组织自己的数据提供了平台。

链接:https://data.world/

5 Google Dataset Search

数据集搜索 是谷歌 2018 年推出的一个新搜索功能。如果你正在寻找特定主题或特定来源的数据,这个工具值得一试。

链接:https://datasetsearch.research.google.com/

6 OpenDaL

OpenDal 也是一个数据集搜索工具,你可以利用多种方式进行搜索,如根据创建时间或框定地图上的某一区域。

链接:https://opendatalibrary.com/

7 Pandas Data Reader

Pandas Data Reader 可以帮助你拉取在线资源中的数据,然后将其用到 Python pandas DataFrame 中。这里大部分是金融数据。

链接:https://pandas-datareader.readthedocs.io/en/latest/remote_data.html

8 从 API 获取数据

利用 Python 从 API 获取数据也是数据科学家常用的一种方法,具体操作步骤可以参见以下教程。
链接:https://towardsdatascience.com/how-to-get-data-from-apis-with-python-dfb83fdc5b5b

参考链接:
https://towardsdatascience.com/the-top-10-best-places-to-find-datasets-8d3b4e31c442

  • 13
    点赞
  • 117
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要下载GitHub数据集,您需要遵循以下步骤: 1. 打开GitHub网站并登录您的帐户。 2. 在GitHub上找到您想要下载的存储库,然后单击存储库的名称。 3. 单击页面右侧的“Code”(或“克隆”)按钮。 4. 从下拉菜单中选择“Download ZIP”。 5. 等待下载完成,然后提取ZIP文件以访问数据集。 请注意,某些GitHub存储库可能使用Git LFS(Large File Storage)来存储大型文件。在这种情况下,您需要安装Git LFS扩展程序,然后在终端中使用git-lfs命令下载数据集。 希望这可以帮助您成功下载GitHub数据集。 ### 回答2: 要下载GitHub数据集,可以按照以下步骤进行: 1. 打开GitHub网站,进入你想要下载数据集的仓库页面。 2. 在仓库页面上方找到一个绿色的按钮,上面写着“Code”,点击它。 3. 在弹出的下拉菜单中,点击“Download ZIP”选项。 4. 这将会把整个仓库以ZIP压缩文件的形式下载到你的电脑上。可以选择保存位置,并等待下载完成。 5. 下载完成后,找到你保存的ZIP文件,将其解压到一个指定的文件夹中。 6. 解压后的文件夹将包含该仓库中的所有文件和目录,你可以根据自己的需要使用其中的数据集。 除了ZIP文件方式,你还可以通过其他方式获取GitHub数据集。例如,你可以使用Git命令行工具来克隆整个仓库到你的本地计算机上。使用Git命令行工具可以更方便地更新、拉取或提交你的文件。 以上是下载GitHub数据集的基本步骤,具体操作可能会根据仓库的设置有所不同。务必根据仓库页面上的具体指示进行操作,以确保正确下载所需的数据集。 ### 回答3: 要下载GitHub上的数据集,可以按照以下步骤进行操作: 1. 首先,打开GitHub的官方网站并登录您的账户。 2. 在主页上,使用搜索栏输入您感兴趣的数据集的关键词,并点击搜索按钮。 3. 在搜索结果列表中,找到您想要下载的数据集的仓库页面,并点击进入。 4. 在仓库页面中,您可以找到数据集的详细描述、文件列表以及其他相关信息。 5. 查看文件列表,找到您需要的数据文件。如果有多个文件,可以选择下载其中一个或多个文件。 6. 点击文件名进入文件页面。在文件页面,您将看到文件的内容、大小以及下载选项。 7. 在下载选项中,您可以选择直接下载文件或复制文件的下载链接。 8. 如果选择直接下载文件,点击下载按钮即可开始下载。 9. 如果选择复制文件的下载链接,将链接粘贴到浏览器的地址栏,按下回车键即可开始下载。 10. 下载完成后,您可以在下载文件夹中找到并使用数据集。 需要注意的是,某些数据集可能会要求您登录或申请权限才能下载。在下载数据集之前,确保您已经满足了所需的条件。 另外,有时候数据集可能被分为多个部分或分散在多个仓库中。在这种情况下,您可能需要查找和下载多个文件或浏览多个仓库页面来获取完整的数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值