Datawhale AI 夏令营 机器学习入门task

这里是任务笔记,暑假期间参加的一个活动。这里是任务2的笔记。

Task2:入门lightgbm,开始特征工程

首先对数据进行分析,有一个大致的了解,明白我们如何对其进行优化。在给的文档中提供了两种画图的思路。一是根据类型来分类,将每个类型分成不同组,文档中的图显示了19种类型的平均特征值。二是根据id来分,每个id就是一个房屋的编号,对一个房屋按时间绘制折线图,横坐标为dt,表示天数的变化,dt越小则离现在越近,假设过去了100天,dt为100时就是第1天的数据,dt为10则是第90天的数据,现在就是第100天。通过这两个图我可以对数据有一个更清晰的认识。

然后是进行特征工程的构建,我是这样理解的,我们要进行预测的就是特征,那么我就用过去的特征来进行匹配,当类型相似时,时间跨度相似时就可以通过拟合来达到一个相似的结果。文档中使用的是历史平移特征和窗口统计特征。

以下是我个人胡乱分析的一些玩意,不知道对不对,先写下来吧,哥们也懒得查了

历史平移特征:

将之前几天的数据信息给到后面的信息中,因为这两者的信息可能有关联性,比如说一连几天都很热啊,开了几天空调。或者因为其它的一些原因导致后面的电力需求变化。文档中的历史平移特征是10到29天之前的信息给到当前。通过这种操作可以增强数据的关联性,揭示数据可能存在的周期性特征。所以在进行调优时可以考虑调整时间步长来提高模型的准确性。

窗口统计特征:

定义一个时间窗口,统计这个窗口内的各种数据量,如均值,方差等。去捕捉数据在短时间内的变化趋势,提供一些判断依据。在一定程度上可以起到平滑去噪的效果。文档中就用的是前10,11,12天的信息作为一个窗口,用的是均值来作为输出特征。所以可以考虑加入方差等特征来改进模型,或者改变窗口的大小进行尝试。

最后进行模型的训练和测试集的预测,选择的是lightgbm模型,对它的参数进行各种改变可以改进模型的效果,如改变num_leaves和seed的值。在构建训练集合预测集时要注意穿越问题,不能用未来的数据来进行训练,穿越会导致效果出现显著的偏差,验证很好,但实际不行。文档中是把dt下小于等于30的数据放入验证集,dt大于等于31的数据放入训练集来保证数据不存在穿越问题。

到此文档的教学内容就完成了,剩下的可以自己进行数值调整,看看能不能提分。说实话学到的东西是挺少的,不过用到的东西其实很多。本次活动也就是一个引子,一个入门体验,能学下去才是能获得新东西的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值