Colab 快速上传数据集方法

有时我们想要使用 Colab 训练自己的数据集(非 Colab 自带数据集),那么首先必须要上传数据集到 Colab 平台。
Colab 平台直接上传文件速度非常慢,即使你上传的是压缩后的文件。本文将介绍两种方法解决 Colab 上传数据集慢的问题。

一、谷歌云上传

Colab 支持挂载谷歌云盘,所以可以把要上传的文件保存到谷歌云盘中。训练深度学习模型时,使用保存在谷歌云中的数据集。当然,谷歌云盘的上传速度一般也很慢。下面介绍两种方法,快速将文件保存到谷歌云中。

1. 复制分享的谷歌云链接

如果你找到了其他人通过谷歌云盘分享的文件,那么打开别人的分享链接直接星标复制即可。

以下载 Market1501 数据集为例,找到了 Market1501 的谷歌云链接,打开链接,点击详情,
在这里插入图片描述
可以查看文件的详细信息
在这里插入图片描述
点击加注星标,就可以在已加星标中看到该文件,在该文件上右键复制,就可以将文件添加到你的谷歌云盘。

在这里插入图片描述
在 Colab 上点击挂载谷歌云盘或者输入命令

from google.colab import drive
drive.mount('/content/drive/')

即可挂载谷歌云盘。

2. 使用 multicloud 工具

multicloud 可以实现百度云、Onedrive 和 谷歌云之间的文件转移,30G是免费的。
MultCloud官网地址

二、通过 Kaggle API 进行下载(推荐)

有办法直接高速下载数据集到 Colab 吗?答案是有,借助 Kaggle API 就可以实现数据集的高速下载。而且,Kaggle 上的数据集资源相等丰富。

  1. 打开 kaggle

打开 kaggle 网页的数据集 https://www.kaggle.com/datasets,搜索你需要下载的数据集
在这里插入图片描述
2. 点击 Copy API command

以下载 MARS 数据集为例,点击 Copy API command,会复制如下命令kaggle datasets download -d twoboysandhats/mars-motion-analysis-and-reidentification-set
在这里插入图片描述

  1. 获取 API Token

登录 Kaggle 账户,点击头像->Account->Create New API Token,会生成一个 json 文件,里面包含 username 和 key 的键值对。

在这里插入图片描述
4. Colab 中下载数据集

在 Colab 中安装 kaggle 包,并生成 kaggle 用户名密码 json 文件 。其实,就是根据上面获取的 API Token 生成新的 json 文件,默认位置在 '/content/kaggle.json'

在 Jupyter 中依次执行下面的命令,token = {"username":"XXX","key":"XXXXXXXXXXXX"}中的 xxxx 根据刚才生成的 API Token 进行填写。

pip install kaggle
import json
token = {"username":"XXX","key":"XXXXXXXXXXXX"}
with open('/content/kaggle.json', 'w') as file:
  json.dump(token, file)
!mkdir -p ~/.kaggle
!cp /content/kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
!kaggle config set -n path -v /content

在 Colab 的 Jupyter 中输入复制得到的 Copy API command 进行下载

!kaggle datasets download -d twoboysandhats/mars-motion-analysis-and-reidentification-set

如果需要把数据集保存到谷歌云盘中,可以使用 !cp /content/datasets/twoboysandhats/mars-motion-analysis-and-reidentification-set/mars-motion-analysis-and-reidentification-set.zip /content/drive/MyDrive,将数据集复制到谷歌云盘中。

实践表明:几分钟内就可以把这个 6G 多的数据集下载完毕,默认下载位置是 content
Tip: 当然如果你在 Kaggle 中通过创建数据集的方法上传了数据集或者代码文件,用 Copy API command 也可以实现在 Colab 的高速下载。

参考文献

Kaggle数据集上传到Google Colab上,亲测绝对有效

  • 18
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
回答: 如果你觉得在本地上传Kaggle数据集太慢,你可以尝试将数据集上传Google Colab上。通过使用Kaggle数据API,你可以在Colab快速上传数据集。首先,你需要在Colab中导入Kaggle的API密钥文件(kaggle.json),并将其存放在/.kaggle文件夹中。这样,你的Kaggle账号就与Colab成功连接了。接下来,你可以使用Kaggle提供的下载代码来测试连接是否成功。如果连接成功,你就可以直接从Kaggle中导入数据集了。如果不幸遇到401 - Unauthorized提示,可能是因为API密钥过期了,你需要重新下载API文件并重新导入到Colab中。此外,如果你想删除Colab中的文件夹,你可以使用Linux指令来删除。例如,使用指令"!rm -rf data"来删除名为"data"的文件夹。以上是一些初始步骤,无论你在Kaggle上下载什么数据集,都需要重复这些步骤。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *3* [Kaggle数据集快速上传Google Colab上,速度可达70MB/S+ !!!](https://blog.csdn.net/Leon1997726/article/details/115367517)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [关于colab中连接kaggle、运行数据集时遇到的一些问题](https://blog.csdn.net/weixin_45038397/article/details/126841026)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值