使用Kaggle API下载数据集

使用Kaggle API下载数据集

1.首先来到kaggle官网https://www.kaggle.com/competitions/twitter-sentiment-analysis-self-driving-cars/overview

2.在右上角找到Register注册,点击注册,可以使用Google注册,也可以使用邮箱注册

在这里插入图片描述

3.点击右上角头像,点击Account

在这里插入图片描述

4.完善信息,注意:此处一定要将Phone Verification完善,否则下载数据集时会报401 - Unauthorized的错误。在此处可能需要科学上网进行人机验证,或者使用https://blog.csdn.net/Moniko_yo/article/details/124143897(引用别人的方法)此方法也可以解决

5.找到自己需要的数据集

在这里插入图片描述

6.点击Rule,勾选同意协议

7.复制命令行命令

在这里插入图片描述

8.安装Kaggle API,通过pip指令:pip install kaggle, Mac/Linux可能会通过pip install --user kaggle指令来安装以避免安装错误,但本人是Mac系统直接pip指令没有出现问题。

9.创建API令牌,再次进入Account账户,点击Create New API Token来生成一个json文件

在这里插入图片描述

10.将下载好的json文件复制到.kaggle文件夹中,在Mac和Linux系统下的路径为:~/.kaggle/kaggle.json,在Windows系统路径为:

C:\Users\<Windows-username>\.kaggle\kaggle.json

11.为了文件访问安全,使用此指令:chmod 600 ~/.kaggle/kaggle.json,当然不运行此步指令也不会发生问题

12.将第七步的命令行命令在终端运行,即可在~目录下看到下载好的数据了,至此,下载结束。

### 使用Kaggle API下载数据集 为了更高效地获取所需的数据资源,可以利用Kaggle API来完成这一操作。具体过程如下: #### 初始化API环境 在Python环境中引入必要的库并实例化API对象,随后调用`authenticate()`方法验证身份。 ```python from kaggle.api.kaggle_api_extended import KaggleApi api = KaggleApi() api.authenticate() ``` 此部分代码用于设置访问权限,确保后续能够顺利执行下载指令[^2]。 #### 配置本地环境 对于Linux系统的用户来说,在使用API之前还需要做一些额外的工作以保障安全性和功能性。这涉及到将从个人账号页面获得的`kaggle.json`文件放置于特定路径下,并调整其读写属性。 ```bash mkdir -p ~/.kaggle/ cp /path/to/downloaded/kaggle.json ~/.kaggle/ chmod 600 ~/.kaggle/kaggle.json ``` 上述命令序列完成了API密钥的安全存储配置工作[^3]。 #### 执行下载任务 当一切准备就绪之后,就可以通过简单的CLI命令或者编程接口发起实际的数据集拉取请求了。例如,如果想要下载某个公开竞赛中的数据包,则可以在终端输入类似下面这样的语句: ```bash kaggle competitions download -c competition-name ``` 而对于一般性的公共数据集而言,通常会采用更为简洁的形式指定目标项目ID来进行批量打包下载: ```bash kaggle datasets download -d username/datasetname ``` 这里需要注意的是,具体的用户名(`username`)和数据集名称(`datasetname`)应当替换为目标资源的真实标识符[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值