方式1:从本地机器导入数据集
方式2:从google drive导入
方式3:导入kaggle网站提供的数据集
方式1:
选择导入本地的文件,注意导入的文件智慧自会对本次会话生效。
此外,还可以获得本地导入的文件的路径以及文件名称
路径如下图所示:
方式2:
适用场景:当本地资源有限的时候,我们可以将下载好的数据集上传到google drive中。或者需要在不同的终端使用的数据,可以存放在云端。
1:先打开云端硬盘
2:选择新建
3:选择新建文件夹或者文件
4:这里我们选择文件夹并上传文件
登录谷歌邮箱并且装载谷歌云云盘
查看即可:
方式3:从Kaggle网站导入数据
打开kaggle网站:
登录以后来到个人信息的界面
点击account:
点击new api token,下载相应的json文件,文件中包含个人用户名以及相应的密钥
进入google网站,安装kaggle库,输入以下指令执行:
!pip install -q kaggle
再从本地导入kaggle的json文件
from google.colab import files
files.upload()
创建一个文件夹来保存kaggle的用户名以及密钥
!mkdir ~/.kaggle
复制文件到指定的路径下面:
!cp kaggle.json ~/.kaggle/
设置文件的权限,600:拥有者可以进行读写操作,其他人没有权限。chmod是changemod的简写
!chmod 600 ~/.kaggle/kaggle.json
列出kaggle提供的所有的数据集
! kaggle datasets list
如果想要下载某个指定的数据集,例如下面的数据集,我们点击data之后,下拉
复制API:
粘贴到notebook中,在前面加上感叹号,运行代码
,OK,似乎出了点小question
下载数据集到指定文件夹中,先修改路径:
再运行下载数据集的命令,会将数据集下载到我们指定的位置
针对遇到的这个问题:
Warning: Looks like you’re using an outdated API Version, please consider updating (server 1.5.12 / client 1.5.4)
解决方法:
!pip install --upgrade --force-reinstall --no-deps kaggle
运行结果:
再重新下载一次数据集
如果下载到zip包,可以使用解压缩指令: