1. 通过kaggle 2015年航班延误 数据集,分别用XGBoost、LightGBM和CatBoost模型进行实验。
在获取kaggle数据集过程中,遇到Kaggle新用户注册无法弹出验证提示的问题
解决办法:
(1)导入浏览器插件 Header Editor 插件 (Google/Edge)
(2)在插件中导入 HE-GoogleRedirect.json 配置文件
完成界面如下:
之后再继续注册kaggle网站即可,以此来获取kaggle数据集
2. kaggle数据集介绍
Kaggle 是一个著名的数据科学和机器学习竞赛平台,提供了大量免费的公开数据集供研究者、学生、数据科学家和开发者使用。Kaggle 上的数据集覆盖了广泛的领域,包括但不限于机器学习、深度学习、自然语言处理、计算机视觉、经济学、社会学等。
Kaggle 提供的数据集可以分为以下几类:
-
机器学习/数据分析:这些数据集通常用于训练和测试机器学习模型,常见的任务包括分类、回归、聚类等。
- 示例:房价预测数据集、Titanic生存预测数据集。
-
自然语言处理 (NLP):包含文本数据,用于训练语言模型、情感分析、文本分类等任务。
- 示例:IMDb影评情感分析数据集、Spam SMS数据集。
-
计算机视觉:用于图像分类、目标检测、图像分割等任务。
- 示例:CIFAR-10、MNIST手写数字数据集。
-
时间序列分析:包括经济学、金融市场等方面的数据,用于时间序列预测和分析。
- 示例:股票价格数据集、气候数据集。
-
生物学和医疗健康:涉及生物学、医学影像、基因组数据等。
- 示例:癌症检测数据集、Covid-19疫情数据集。
-
社会学和社会数据:关于社会行为、人口统计数据等。
- 示例:世界银行经济数据、犯罪率数据集。