一、赛题简介
本次Datawhale AI夏令营的电力需求预测挑战赛,旨在通过构建时序预测模型来预测多个房屋在未来的电力消耗情况。赛题任务是对给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。赛题目标是训练 时序预测模型 助力电力需求预测
二、数据概览
赛题提供了训练集和测试集,这些数据集包含以下字段:房屋ID、日期标识、房屋类型以及实际电力消耗量。为保证比赛公正性,日期进行了脱敏处理,其中1代表最近一天,1-10天的数据被用作测试集。
三、baseline代码实现
代码如下:
-
数据处理:
- 使用Pandas对数据进行预处理,包括合并训练集和测试集,对日期和房屋ID排序等。
- 利用Numpy进行数值计算,例如创建滚动窗口以计算过去N天的平均电力消耗。
-
模型构建与训练:
- 采用LightGBM构建基线模型,该模型因其高效的处理能力在处理大规模数据时表现优异。
- 设定合适的超参数,如学习率、树的数量、深度等,进行模型训练。
-
性能评估:
- 使用均方误差作为评价指标,公式为:
- 其中,yi和 y^i分别代表实际值和预测值。
-
结果提交:
- 预测结果保存为CSV文件,按照规定格式提交。
- 预测结果保存为CSV文件,按照规定格式提交。
四、代码微调与分数提升
-
参数优化:
- 调整LightGBM的参数,如增加树的深度,调整学习率等,以优化模型表现。
- 使用交叉验证进行超参数调整,以获得最佳模型配置。
-
特征工程改进:
- 引入更多滚动窗口统计特征,如电力消耗的移动平均和标准差。实验不同的时间序列特征,如季节性趋势和周期性变化,以提高预测精度。
本次有幸参加Datawhale组织的AI夏令营,关于机器学习方向的“电力需求预测挑战赛,此次笔记为task1的笔记,主要目标是跑通baseline,体验机器学习解决问题的流程,基本了解赛题要求,理解赛题场景。通过竞赛实践,加深了对时间序列预测方法的理解,特别是在电力需求预测领域的应用。
后续部分的学习也会坚持记录。