在前面的任务中,我们介绍了赛题并通过基于经验模型的Baseline完成了预测任务。在本次任务中,我们将使用更为先进的机器学习模型LightGBM来解决问题,以期获得更好的预测效果。你将学会如何使用数据集绘制柱状图和折线图,如何在时间序列数据中构建历史平移特征和窗口统计特征,并使用LightGBM模型进行训练和预测。
特征工程在机器学习竞赛中是一个至关重要的环节。通过观察数据并结合领域知识来改进或构建新的特征,可以显著提高模型性能。正如经典的机器学习理论所言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限的工具。
进阶思路Q&A
1. 解决该问题常见的几种思路是什么?
- 常见的解决方案包括使用机器学习模型(如LightGBM、XGBoost)或深度学习模型(如神经网络等)。机器学习模型操作简便,数据不需要过多预处理;深度学习模型则需要更复杂的模型构建和数值标准化处理。
2. 本教程使用什么思路?
- 在之前的任务中,我们使用基于均值的经验模型作为Baseline来解决问题。在本任务中,我们将转向机器学习模型,通过获取数据、特征提取和模型训练来解决问题。
3. 使用机器学习方法有哪几个步骤?
- 主要步骤包括探索性数据分析(EDA)、数据预处理、特征提取、训练集和验证集的划分、模型训练和结果预测。
进阶代码详解
(1)导入模块
import numpy as np
import