Datawhale AI 夏令营-电力需求挑战赛 Task1笔记

目标

  • 跑通baseline代码
  • 体验机器学习解决问题的流程  
  • 基本了解赛题要求
  • 理解赛题场景

步骤

1. 跑通代码并提交
  • 导入所需库:pandas和numpy
  • 读取训练集和测试集数据
  • 计算训练数据最近11-20天内每个id的目标均值
  • 将计算结果与测试集合并
  • 保存结果文件并提交
    # 1. 导入需要用到的相关库
    import pandas as pd
    import numpy as np
    
    # 2. 读取训练集和测试集
    train = pd.read_csv('./data/data283931/train.csv')
    test = pd.read_csv('./data/data283931/test.csv')
    
    # 3. 计算训练数据最近11-20单位时间内对应id的目标均值
    target_mean = train[train['dt']<=20].groupby(['id'])['target'].mean().reset_index()
    
    # 4. 将target_mean作为测试集结果进行合并
    test = test.merge(target_mean, on=['id'], how='left')
    
    # 5. 保存结果文件到本地
    test[['id','dt','target']].to_csv('submit.csv', index=None)
2. 学习相关知识点

时间序列问题定义
时间序列是按时间顺序收集的一系列数据点。在这个赛题中,我们需要预测未来的电力消耗,这是一个典型的时间序列预测问题。

传统时序模型
一些常见的传统时序模型包括:

  • 移动平均(MA)
  • 自回归(AR) 
  • 自回归移动平均(ARMA)
  • 自回归积分移动平均(ARIMA)
    # 移动平均(MA)示例
    import pandas as pd
    import numpy as np
    
    # 假设我们有一个时间序列数据
    data = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
    
    # 计算7天移动平均
    ma = data.rolling(window=7).mean()
    
    # 自回归(AR)示例
    from statsmodels.tsa.ar_model import AutoReg
    
    # 拟合AR模型
    model = AutoReg(data, lags=5)
    results = model.fit()
    
    # 预测下一个值
    next_value = results.predict(start=len(data), end=len(data))

baseline代码使用了一个非常简单的方法 - 计算历史平均值作为预测,这可以看作是一种非常基础的时序预测方法。

3. 理解赛题
  • 任务:预测多个房屋未来的电力消耗
  • 数据:包含房屋id、日期、房屋类型和实际电力消耗
  • 预测目标:未来10天的电力消耗
  • 评估指标:可能是均方误差(MSE)或平均绝对误差(MAE)等

下一步计划

  • 尝试使用更复杂的时序模型如ARIMA
  • 探索数据的时间特征,如周期性、季节性等
  • 考虑引入额外特征,如天气数据、节假日信息等
    from statsmodels.tsa.arima.model import ARIMA
    
    # 假设我们要对某个特定id的数据进行建模
    id_data = train[train['id'] == some_id]['target']
    
    # 拟合ARIMA模型
    model = ARIMA(id_data, order=(1,1,1))
    results = model.fit()
    
    # 预测未来10天
    forecast = results.forecast(steps=10)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值