如何在colab中加载数据集并且运行文件

本文介绍了三种导入数据集的方法:从本地机器导入、从Google云端硬盘导入及从Kaggle网站导入。具体步骤包括:选择本地文件、登录谷歌账号装载云端硬盘、安装Kaggle库并配置密钥等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

方式1:从本地机器导入数据集
方式2:从google drive导入
方式3:导入kaggle网站提供的数据集

方式1:
在这里插入图片描述
选择导入本地的文件,注意导入的文件智慧自会对本次会话生效。在这里插入图片描述
此外,还可以获得本地导入的文件的路径以及文件名称
在这里插入图片描述
路径如下图所示:
在这里插入图片描述

在这里插入图片描述
方式2:
适用场景:当本地资源有限的时候,我们可以将下载好的数据集上传到google drive中。或者需要在不同的终端使用的数据,可以存放在云端。
1:先打开云端硬盘
在这里插入图片描述
2:选择新建
在这里插入图片描述
3:选择新建文件夹或者文件
在这里插入图片描述
4:这里我们选择文件夹并上传文件
在这里插入图片描述

登录谷歌邮箱并且装载谷歌云云盘在这里插入图片描述

查看即可:

方式3:从Kaggle网站导入数据
打开kaggle网站:
在这里插入图片描述
登录以后来到个人信息的界面
在这里插入图片描述
点击account:
在这里插入图片描述
点击new api token,下载相应的json文件,文件中包含个人用户名以及相应的密钥
在这里插入图片描述
进入google网站,安装kaggle库,输入以下指令执行:

!pip install -q kaggle

在这里插入图片描述

再从本地导入kaggle的json文件

from google.colab import files
files.upload()

在这里插入图片描述
创建一个文件夹来保存kaggle的用户名以及密钥

!mkdir ~/.kaggle

在这里插入图片描述

复制文件到指定的路径下面:

!cp kaggle.json ~/.kaggle/

在这里插入图片描述

设置文件的权限,600:拥有者可以进行读写操作,其他人没有权限。chmod是changemod的简写

!chmod 600 ~/.kaggle/kaggle.json

在这里插入图片描述

列出kaggle提供的所有的数据集

! kaggle datasets list

在这里插入图片描述
在这里插入图片描述

如果想要下载某个指定的数据集,例如下面的数据集,我们点击data之后,下拉
liru
复制API:
在这里插入图片描述
粘贴到notebook中,在前面加上感叹号,运行代码

在这里插入图片描述
,OK,似乎出了点小question
下载数据集到指定文件夹中,先修改路径:
在这里插入图片描述
再运行下载数据集的命令,会将数据集下载到我们指定的位置
在这里插入图片描述
针对遇到的这个问题:

Warning: Looks like you’re using an outdated API Version, please consider updating (server 1.5.12 / client 1.5.4)

在这里插入图片描述
解决方法:

!pip install --upgrade --force-reinstall --no-deps kaggle

运行结果:
在这里插入图片描述

再重新下载一次数据集
在这里插入图片描述
如果下载到zip包,可以使用解压缩指令:
在这里插入图片描述

### 如何在Google Colab加载和读取数据集 #### 使用Google Drive挂载来访问数据集 为了能够从Google Drive读取数据集,在Colab环境中首先要完成Drive的挂载操作。这一步骤通过调用`google.colab.drive`模块中的`mount()`函数实现[^2]。 ```python from google.colab import drive drive.mount('/content/drive/') ``` #### 设置工作目录至存储位置 一旦成功连接到Google Drive之后,可以改变当前的工作路径指向保存有目标数据集的具体文件夹位置。通常情况下,用户的自定义文件会存放在"MyDrive"下的特定子文件夹内[^3]。 ```python import os filepath = "/content/drive/MyDrive/Colab Notebooks" os.chdir(filepath) print(os.getcwd()) ``` #### 加载具体的数据集实例 对于像图片这样的二进制文件构成的数据集,比如猫与狗分类的任务,可以通过TensorFlow或Keras内置的功能轻松导入预处理好的版本。这里假设已经在个人云端硬盘里上传了一个本地下载的数据压缩包或者直接利用网络上的公开资源链接获取所需资料[^4]。 如果要手动解压位于指定路径下的`.zip`格式档案,则可借助Python标准库`shutil`配合上述设定过的绝对地址参数: ```python import shutil # 假设ZIP文件名为'dataset.zip' local_zip = '/content/drive/MyDrive/dataset.zip' zip_dir = os.path.dirname(local_zip) if not os.path.exists(zip_dir+'/dataset'): with zipfile.ZipFile(local_zip, 'r') as zip_ref: zip_ref.extractall(zip_dir) # 解压到同一级目录下 else: print('Dataset already extracted.') ``` 另外一种常见的方式是从互联网上直接下载CSV、JSON等形式结构化表格型态的数据源,并运用Pandas框架快速解析成DataFrame对象供后续分析建模使用: ```python import pandas as pd url = "https://example.com/path/to/data.csv" # 替换成实际URL dataframe = pd.read_csv(url) display(dataframe.head()) # 展示前几条记录确认无误 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值