30 个经典 Kaggle 比赛及适合 PyTorch 实践的赛题
以下整理了 30 个 Kaggle 经典比赛,覆盖计算机视觉、自然语言处理、表格数据等不同类型。每个比赛都注明了核心任务、赛题简介、适合的学习阶段和数据集来源,供学习者使用 PyTorch 进行复现和练习。
1. Titanic: Machine Learning from Disaster
- 核心任务:生存预测(二分类)
- 赛题简介:预测 1912 年泰坦尼克号沉船事故中哪些乘客能够幸存 (Kaggle Competitions For Ai Prediction | Restackio)。参赛者根据乘客的个人信息(如年龄、性别、舱位等)构建模型,回答“什么样的人更可能幸存?” (Titanic: Machine Learning from Disaster - Rishabh Nimje)。这道题被誉为 Kaggle 上最经典的入门挑战赛题。
- 适合的学习阶段:初学者(入门级机器学习练习)
- 数据集来源:历史泰坦尼克乘客名单及幸存记录(由 Kaggle 整理提供)
2. House Prices: Advanced Regression Techniques
- 核心任务:房价预测(回归)
- 赛题简介:根据美国艾姆斯 (Ames) 城市房屋的79个特征,预测每套房屋的最终出售价格 (GitHub - chouhbik/Kaggle-House-Prices: Predict sales prices and practice feature engineering, RFs, and gradient boosting)。该比赛旨在练习特征工程和回归建模技能,是学习者在掌握基础后提升能力的绝佳练习 (GitHub - chouhbik/Kaggle-House-Prices: Predict sales prices and practice feature engineering, RFs, and gradient boosting)。
- 适合的学习阶段:初学者/中级(有一定机器学习基础后)
- 数据集来源:Ames Housing 房价数据集,由 Dean De Cock 编制用于数据科学教育 (GitHub - chouhbik/Kaggle-House-Prices: Predict sales prices and practice feature engineering, RFs, and gradient boosting)。
3. Santander Customer Transaction Prediction
- 核心任务:用户交易预测(二分类)
- 赛题简介:来自 Santander 银行的匿名客户数据,要求参赛者预测哪些客户在未来会进行特定交易 (Kaggle Competitions For Ai Prediction | Restackio)。该比赛强调理解客户行为,将机器学习应用于实际业务问题。
- 适合的学习阶段:中级(需要一定的数据处理和建模技能)
- 数据集来源:Santander 银行提供的客户交易记录(已匿名化处理)
4. Porto Seguro’s Safe Driver Prediction
- 核心任务:保险理赔预测(二分类)
- 赛题简介:由巴西 Porto Seguro 保险公司举办,挑战参赛者建立模型预测司机在下一年提出汽车保险理赔的概率 (Porto Seguro’s Safe Driver Prediction | Kaggle) (Kaggle Porto Seguro Part I - Exploratory Data Analysis)。这是典型的不平衡分类问题,大部分司机不会出险,极少部分会出险 (Kaggle Porto Seguro Part I - Exploratory Data Analysis)。通过本赛题可以学习应对不平衡数据和提高模型泛化能力的技巧。
- 适合的学习阶段:中级(涉及高级特征工程和模型集成技巧)
- 数据集来源:巴西 Porto Seguro 保险公司提供的投保客户历史数据 (Kaggle Porto Seguro Part I - Exploratory Data Analysis)。
5. Home Credit Default Risk
- 核心任务:信用违约预测(二分类)
- 赛题简介:使用贷款申请的历史数据预测借款人是否会违约(无法偿还贷款) (Credit Default Risk - Kaggle)。此比赛由金融公司 Home Credit 举办,旨在借助机器学习更好地评估借款人的信用风险 (Wait, so loans need to be repaid? The home credit risk prediction …)。参赛者需要处理大量异构的客户信息,并运用特征工程提升模型性能。
- 适合的学习阶段:中级/高级(涉及大量数据预处理和特征构造)
- 数据集来源:Home Credit 集团提供的历史贷款申请及还款数据 (Wait, so loans need to be repaid? The home credit risk prediction …)。
6. Rossmann Store Sales
- 核心任务:超市销售预测(时间序列回归)
- 赛题简介:德国连锁药店 Rossmann 提供数年历史销售数据,要求预测其在多个门店未来6周的每日销售额 (TIME SERIES FORECASTING - TAKING KAGGLE ROSSMANN CHALLENGE AS EXAMPLE - Hogwarts CS Magic School)。参赛者需要结合商店信息、促销和竞争对手等因素进行时间序列预测。这是Rossmann公司的首场 Kaggle 比赛,共有 1115 家德国门店的销售需预测 (TIME SERIES FORECASTING - TAKING KAGGLE ROSSMANN CHALLENGE AS EXAMPLE - Hogwarts CS Magic School)。该