线程导入大数据入库_第四届工业大数据创新竞赛——水电站入库流量预测决赛top20内代码分享...

2c858a9618cbb5d31048a1aa4616b4ee.png

赛题地址:工业大数据产业创新平台

题目描述:对于水电站来说,发电是主要经济效益来源,而水就是生产的原料。对进入水电站水库的入库流量进行精准预测,能够帮助水电站对防洪、发电计划调度工作进行合理安排,实现避免洪涝灾害和提升发电经济效益的目的。

赛题任务:基于历史数据和当前观测信息,对电站未来7日入库流量进行预测(每3小时一个预测值,共56个待预测值)。初赛预测3个时段,决赛预测5个时段。

解题思路:简单粗暴,直接采用fbprophet进行训练与预测。

上分技巧

1.入库流量转换为其值的0.45次幂训练;

2.加入自定义前向增加数据的"5折"训练;

3.在18年严重缺数,19年也缺数的情况下采取开关年季节性进行融合。

没几行代码,直接贴文章里了:

import warnings
warnings.filterwarnings("ignore")
import numpy as np
import pandas as pd
from tqdm import tqdm
from fbprophet import Prophet

#分别读取初赛决赛入库流量数据
cs_rese_df = pd.read_excel('../data/rese.xlsx', names =['ds', 'y'])
js_rese_df = pd.read_excel('../data/js_rese.xlsx', names =['ds', 'y'])
rese_df    = pd.concat([cs_rese_df,js_rese_df])

date_range = pd.date_range(start='2019-02-01 02:00:00', freq='3H', periods=56)
date_range = date_range.append(pd.date_range(start='2019-04-01 02:00:00', freq='3H', periods=56))
date_range = date_range.append(pd.date_range(start='2019-06-01 02:00:00', freq='3H', periods=56))
date_range = date_range.append(pd.date_range(start='2019-08-01 02:00:00', freq='3H', periods=56))
date_range = date_range.append(pd.date_range(start='2019-11-01 02:00:00', freq='3H', periods=56))
test_all   = pd.DataFrame(date_range,columns=['ds'])

#后向增加数据
#是否关闭季节性均跑一次5折
#14年12月31号之后的数据作为固定训练数据,依次从2014-12-31开始至2012-12-31每次新增半年数据作为训练集
preds_np  = np.zeros(280)
preds_nph = np.zeros(280)
preds_npb = np.zeros(280)
n_fold = 0

cut_off = pd.date_range(start='12/31/2012', freq='6M', periods=5)
for i in tqdm( range(len(cut_off)-1,-1,-1) ):
    train_df = rese_df[ rese_df['ds']>cut_off[i] ].copy()
    msqrt = Prophet(yearly_seasonality=True
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_npb += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

for i in tqdm( range(len(cut_off)-1,-1,-1) ):
    train_df = rese_df[ rese_df['ds']>cut_off[i] ].copy()
    msqrt = Prophet(yearly_seasonality=False
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_nph += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

#前向增加数据
#是否关闭季节性均跑一次5折
#14年12月31号之后的数据作为固定训练数据,依次从2012-12-31开始至2014-12-31每次新增半年数据作为训练集
tail_df = rese_df[ rese_df['ds']>cut_off[len(cut_off)-1] ].copy()

for i in tqdm( range(0, len(cut_off)) ):
    train_df = rese_df[ rese_df['ds']<cut_off[i] ].copy()
    train_df = pd.concat([train_df, tail_df])
    msqrt = Prophet(yearly_seasonality=True
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_npb += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

for i in tqdm( range(0, len(cut_off)) ):
    train_df = rese_df[ rese_df['ds']<cut_off[i] ].copy()
    train_df = pd.concat([train_df, tail_df])
    msqrt = Prophet(yearly_seasonality=False
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_nph += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

#求均值
avg_preds  = preds_np/n_fold
avg_predsh = 2*preds_nph/n_fold
avg_predsb = 2*preds_npb/n_fold

#经多次训练结果分析发现,第三段是否关闭年季节性均值相差接近0.3
#于是采用关闭年季节的10模均值作为前20个点的值(更接近2019-05-31的值)
#采用不关闭年季节性的10模均值作为后20个点的值(提高预测段内的差异性)

sub = pd.read_csv('../data/submission.csv')
sub.loc[0,1:] = np.array( avg_preds[56*0:56*1] )
sub.loc[1,1:] = np.array( avg_preds[56*1:56*2] )
sub.loc[2,1:] = np.array( avg_preds[56*2:56*3] )
sub.loc[3,1:] = np.array( avg_preds[56*3:56*4] )
sub.loc[4,1:] = np.array( avg_preds[56*4:56*5] )

sub.loc[2,1:21] = np.array( avg_predsh[56*2:56*2+20] )
sub.loc[2,-20:] = np.array( avg_predsb[56*3-20:56*3] )

sub.to_csv('../subs/js_prophet_last.csv',index=False)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值