一、引言
kaggle网站包含了大量的数据集(datasets),非常适用于数据分析、机器学习的学习。下面是kaggle网址:
网址:Kaggle: Your Home for Data Sciencehttps://www.kaggle.com/
要下载kaggle数据集,可以直接下载或kaggle API两种方式实现。下面是详细的步骤指南及注意事项:
二、直接下载数据集
1.访问kaggle官网
登入kaggle账号,找到目标数据集页面(如:sanadalali/imdb-2024-movies-and-tv-shows)
2.接受竞赛/数据集规则
部分数据集需要点击“rules”选项卡并手动接受规则(需科学上网加载验证码),否则会触发“403-Forbidden”错误。
3.点击下载按钮
若页面有“Download”按钮,可直接下载数据集到本地。
三、通过kaggle API下载
1.安装与配置kaggle API
1.1安装库:pip install kaggle
若遇到API版本兼容性问题(如404错误),可以降级旧版本:
步骤 1:登录Kaggle账号
-
访问 Kaggle官网,点击右上角 “Sign In” 登录您的账号。
步骤 2:进入API凭证生成页面
-
登录后,点击页面右上角的 用户头像(默认显示为圆形图标)。
-
在下拉菜单中选择 “My Account”(我的账户)。
-
滚动到页面底部的 “API” 部分。
-
点击 “Create New API Token” 按钮。
步骤 3:下载凭证文件
1.点击按钮后,浏览器会自动下载一个名为 kaggle.json
的文件。
{"username":"your_kaggle_username","key":"32位随机字符串"}
步骤 4:配置凭证文件
1. 移动文件到指定目录
将kaggle.json移动到用户目录的隐藏文件夹:
C:\users|<你的用户名>\.kaggle\
2.验证API是否配置成功
通过下面代码验证API是否成功
from kaggle.api.kaggle_api_extended import KaggleApi
import os
def check_kaggle_api():
try:
# 初始化 API 客户端
api = KaggleApi()
api.authenticate() # 自动读取 ~/.kaggle/kaggle.json
# 尝试获取数据集列表
datasets = api.datasets_list()
print("✅ Kaggle API 配置成功!")
print(f"找到 {len(datasets)} 个数据集(示例):")
for dataset in datasets[:3]: # 打印前3个数据集
print(f"- {dataset.ref} ({dataset.title})")
return True
except Exception as e:
print("❌ Kaggle API 配置失败!错误信息:")
print(str(e))
return False
# 运行验证
check_kaggle_api()
✅ Kaggle API 配置成功!
✅ Kaggle API 配置成功!
找到 25 个数据集(示例):
- mathurinache/world-happiness-report-2024 (World Happiness Report 2024)
- nancyalaswad90/mental-health-depression-disorder-data (Mental Health & Depression Disorder Data)
- shivkumarganesh/credit-card-customers (Credit Card Customers)
注意事项
-
文件路径必须正确:
-
确保
kaggle.json
存放在.kaggle
文件夹内,且文件名无拼写错误。 -
若路径错误,会报错:
IOError: Could not find kaggle.json
。
-
-
避免泄露密钥:
-
kaggle.json
包含敏感信息,切勿上传到公开代码仓库(如GitHub)。
-
-
更新凭证:
-
如果重新生成API Token,需替换旧的
kaggle.json
文件并重启终端。
-