Datawhale AI 夏令营机器学习入门task-CSDN博客

本文链接：https://blog.csdn.net/m0_74382128/article/details/140504225

这里是任务笔记，暑假期间参加的一个活动。这里是任务2的笔记。

Task2：入门lightgbm，开始特征工程

首先对数据进行分析，有一个大致的了解，明白我们如何对其进行优化。在给的文档中提供了两种画图的思路。一是根据类型来分类，将每个类型分成不同组，文档中的图显示了19种类型的平均特征值。二是根据id来分，每个id就是一个房屋的编号，对一个房屋按时间绘制折线图，横坐标为dt，表示天数的变化，dt越小则离现在越近，假设过去了100天，dt为100时就是第1天的数据，dt为10则是第90天的数据，现在就是第100天。通过这两个图我可以对数据有一个更清晰的认识。

然后是进行特征工程的构建，我是这样理解的，我们要进行预测的就是特征，那么我就用过去的特征来进行匹配，当类型相似时，时间跨度相似时就可以通过拟合来达到一个相似的结果。文档中使用的是历史平移特征和窗口统计特征。

以下是我个人胡乱分析的一些玩意，不知道对不对，先写下来吧，哥们也懒得查了

历史平移特征：

将之前几天的数据信息给到后面的信息中，因为这两者的信息可能有关联性，比如说一连几天都很热啊，开了几天空调。或者因为其它的一些原因导致后面的电力需求变化。文档中的历史平移特征是10到29天之前的信息给到当前。通过这种操作可以增强数据的关联性，揭示数据可能存在的周期性特征。所以在进行调优时可以考虑调整时间步长来提高模型的准确性。

窗口统计特征:

定义一个时间窗口，统计这个窗口内的各种数据量，如均值，方差等。去捕捉数据在短时间内的变化趋势，提供一些判断依据。在一定程度上可以起到平滑去噪的效果。文档中就用的是前10,11,12天的信息作为一个窗口，用的是均值来作为输出特征。所以可以考虑加入方差等特征来改进模型，或者改变窗口的大小进行尝试。

最后进行模型的训练和测试集的预测，选择的是lightgbm模型，对它的参数进行各种改变可以改进模型的效果，如改变num_leaves和seed的值。在构建训练集合预测集时要注意穿越问题，不能用未来的数据来进行训练，穿越会导致效果出现显著的偏差，验证很好，但实际不行。文档中是把dt下小于等于30的数据放入验证集，dt大于等于31的数据放入训练集来保证数据不存在穿越问题。

到此文档的教学内容就完成了，剩下的可以自己进行数值调整，看看能不能提分。说实话学到的东西是挺少的，不过用到的东西其实很多。本次活动也就是一个引子，一个入门体验，能学下去才是能获得新东西的。