kaggle数据集下载指南

一、引言

        kaggle网站包含了大量的数据集(datasets),非常适用于数据分析、机器学习的学习。下面是kaggle网址:

网址:Kaggle: Your Home for Data Sciencehttps://www.kaggle.com/

要下载kaggle数据集,可以直接下载或kaggle API两种方式实现。下面是详细的步骤指南及注意事项:

二、直接下载数据集

1.访问kaggle官网

登入kaggle账号,找到目标数据集页面(如:sanadalali/imdb-2024-movies-and-tv-shows

2.接受竞赛/数据集规则

部分数据集需要点击“rules”选项卡并手动接受规则(需科学上网加载验证码),否则会触发“403-Forbidden”错误。

3.点击下载按钮

若页面有“Download”按钮,可直接下载数据集到本地。

三、通过kaggle API下载

1.安装与配置kaggle API

1.1安装库:pip install kaggle

若遇到API版本兼容性问题(如404错误),可以降级旧版本:

步骤 1:登录Kaggle账号

  1. 访问 Kaggle官网,点击右上角 “Sign In” 登录您的账号。


步骤 2:进入API凭证生成页面

  1. 登录后,点击页面右上角的 用户头像(默认显示为圆形图标)。

  2. 在下拉菜单中选择 “My Account”(我的账户)。

  3. 滚动到页面底部的 “API” 部分。

  4. 点击 “Create New API Token” 按钮。


步骤 3:下载凭证文件

1.点击按钮后,浏览器会自动下载一个名为 kaggle.json 的文件。

{"username":"your_kaggle_username","key":"32位随机字符串"}

步骤 4:配置凭证文件 

1. 移动文件到指定目录

将kaggle.json移动到用户目录的隐藏文件夹:

C:\users|<你的用户名>\.kaggle\
2.验证API是否配置成功

通过下面代码验证API是否成功

from kaggle.api.kaggle_api_extended import KaggleApi
import os

def check_kaggle_api():
    try:
        # 初始化 API 客户端
        api = KaggleApi()
        api.authenticate()  # 自动读取 ~/.kaggle/kaggle.json
        
        # 尝试获取数据集列表
        datasets = api.datasets_list()
        print("✅ Kaggle API 配置成功!")
        print(f"找到 {len(datasets)} 个数据集(示例):")
        for dataset in datasets[:3]:  # 打印前3个数据集
            print(f"- {dataset.ref} ({dataset.title})")
        return True
    except Exception as e:
        print("❌ Kaggle API 配置失败!错误信息:")
        print(str(e))
        return False

# 运行验证
check_kaggle_api()
✅ Kaggle API 配置成功!
✅ Kaggle API 配置成功!
找到 25 个数据集(示例):
- mathurinache/world-happiness-report-2024 (World Happiness Report 2024)
- nancyalaswad90/mental-health-depression-disorder-data (Mental Health & Depression Disorder Data)
- shivkumarganesh/credit-card-customers (Credit Card Customers)

注意事项

  1. 文件路径必须正确

    • 确保 kaggle.json 存放在 .kaggle 文件夹内,且文件名无拼写错误。

    • 若路径错误,会报错:IOError: Could not find kaggle.json

  2. 避免泄露密钥

    • kaggle.json 包含敏感信息,切勿上传到公开代码仓库(如GitHub)。

  3. 更新凭证

    • 如果重新生成API Token,需替换旧的 kaggle.json 文件并重启终端。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值