2023“SEED”第四届江苏大数据开发与应用大赛--新能源赛道竞赛学习笔记1

首先是对赛题要求的理解:初赛要求提交500个充电站点每天的总充电量(power),对数据进行了预处理。使用pandas的groupby()按照站点id_encode和日期ds重新分组,并合并每一组的power。

train_power.groupby(['id_encode','ds'])['power'].sum()

其次是预处理:本次竞赛虽然是时间序列,但根据数据的类型可以得知,可能更适合树模型,因此首选从时序中再次提取新的时序特征,如:季度、月、是否为周末等特征。可以选择使用pandas的to_datetime先将数据集中的时间转化为时间戳,后续

def convert_date(data, column_name, date_format='%Y%m%d'):
    data[column_name] = pd.to_datetime(data[column_name], format=date_format)
    data["weekday"] = data[column_name].dt.weekday
    data["quarter"] = data[column_name].dt.quarter
    data["month"] = data[column_name].dt.month
    return data

最后按照baseline跑通模型,由于使用lightgbm,数据无须归一化和onehot,直接带入模型即可,得到的结果传后RMSE分数为240.5,另跑了一个随机森林回归模型,融合模型,最后得到分数为234.1,目前排名46

下一步准备按照直播中的方法加入一些外部数据作为特征,以及融合模型,尝试得到更好的结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值