一、任务:入门lightgbm,开始特征工程。
通过进阶的机器学习模型lightgbm来解决本次任务的问题,可以学会以下知识:
- 使用数据集绘制柱状图和折线图,
2. 使用时间序列数据构建历史平移特征和窗口统计特征,
3. 使用lightgbm模型进行训练并预测。
二、解决问题思路
由于本次的任务是回归预测,所以要想取得较好的效果,应该要使用到机器模型,如LightGBM、XGBoost,这种模型使用较简单,不需要对数据做过多的处理,只需要按照以下步骤来进行即可:
①探索性数据分析,主要是对数据集的处理,读取训练集和测试集
②数据预处理
③提取特征:通过特征工程来挖掘特征:在这次任务中采取了历史平移特征和窗口统计特征:
历史平移特征:把d-1时间的信息给d时间,d时间给d+1时间,这样就可以实现平移一个单位的特征构建。
窗口统计特征:窗口统计可以构建不同的窗口大小,然后基于窗口范围进行统计均值、最大值、最小值、中位数等信息,可以反应最近阶段数据的变化情况。
④切分训练集与验证集:由于数据存在时序关系,所以严格按照时序进行切分。,这样可以保证不会使用未来数据去预测历史数据。
⑤训练模型:在此次任务中,选择的是lightgbm,可以在不用调参的情况下也能得到比较稳定的分数
⑥预测结果
三、具体代码分析
(1)首先需要导入各种包
(2)进行探索性分析
(3)对数据进行可视化分析,可以更好的了解数据,同时画出了id为00037f39cf的一个折线图
(4)训练模型与测试集预测
四、运行结果