线程导入大数据入库_第四届工业大数据创新竞赛——水电站入库流量预测决赛top20内代码分享...-CSDN博客

本文介绍了一种使用fbprophet模型预测水电站未来7天入库流量的方法。通过转换流量数据、运用五折交叉验证及调整季节性参数等技巧，提高了预测准确性。

赛题地址：工业大数据产业创新平台

题目描述：对于水电站来说，发电是主要经济效益来源，而水就是生产的原料。对进入水电站水库的入库流量进行精准预测，能够帮助水电站对防洪、发电计划调度工作进行合理安排，实现避免洪涝灾害和提升发电经济效益的目的。

赛题任务：基于历史数据和当前观测信息，对电站未来7日入库流量进行预测（每3小时一个预测值，共56个待预测值）。初赛预测3个时段，决赛预测5个时段。

解题思路：简单粗暴，直接采用fbprophet进行训练与预测。

上分技巧：

1.入库流量转换为其值的0.45次幂训练；

2.加入自定义前向增加数据的"5折"训练；

3.在18年严重缺数，19年也缺数的情况下采取开关年季节性进行融合。

没几行代码，直接贴文章里了：

import warnings
warnings.filterwarnings("ignore")
import numpy as np
import pandas as pd
from tqdm import tqdm
from fbprophet import Prophet

#分别读取初赛决赛入库流量数据
cs_rese_df = pd.read_excel('../data/rese.xlsx', names =['ds', 'y'])
js_rese_df = pd.read_excel('../data/js_rese.xlsx', names =['ds', 'y'])
rese_df    = pd.concat([cs_rese_df,js_rese_df])

date_range = pd.date_range(start='2019-02-01 02:00:00', freq='3H', periods=56)
date_range = date_range.append(pd.date_range(start='2019-04-01 02:00:00', freq='3H', periods=56))
date_range = date_range.append(pd.date_range(start='2019-06-01 02:00:00', freq='3H', periods=56))
date_range = date_range.append(pd.date_range(start='2019-08-01 02:00:00', freq='3H', periods=56))
date_range = date_range.append(pd.date_range(start='2019-11-01 02:00:00', freq='3H', periods=56))
test_all   = pd.DataFrame(date_range,columns=['ds'])

#后向增加数据
#是否关闭季节性均跑一次5折
#14年12月31号之后的数据作为固定训练数据，依次从2014-12-31开始至2012-12-31每次新增半年数据作为训练集
preds_np  = np.zeros(280)
preds_nph = np.zeros(280)
preds_npb = np.zeros(280)
n_fold = 0

cut_off = pd.date_range(start='12/31/2012', freq='6M', periods=5)
for i in tqdm( range(len(cut_off)-1,-1,-1) ):
    train_df = rese_df[ rese_df['ds']>cut_off[i] ].copy()
    msqrt = Prophet(yearly_seasonality=True
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_npb += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

for i in tqdm( range(len(cut_off)-1,-1,-1) ):
    train_df = rese_df[ rese_df['ds']>cut_off[i] ].copy()
    msqrt = Prophet(yearly_seasonality=False
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_nph += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

#前向增加数据
#是否关闭季节性均跑一次5折
#14年12月31号之后的数据作为固定训练数据，依次从2012-12-31开始至2014-12-31每次新增半年数据作为训练集
tail_df = rese_df[ rese_df['ds']>cut_off[len(cut_off)-1] ].copy()

for i in tqdm( range(0, len(cut_off)) ):
    train_df = rese_df[ rese_df['ds']<cut_off[i] ].copy()
    train_df = pd.concat([train_df, tail_df])
    msqrt = Prophet(yearly_seasonality=True
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_npb += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

for i in tqdm( range(0, len(cut_off)) ):
    train_df = rese_df[ rese_df['ds']<cut_off[i] ].copy()
    train_df = pd.concat([train_df, tail_df])
    msqrt = Prophet(yearly_seasonality=False
               ,daily_seasonality=True
               ,seasonality_mode='multiplicative')
    train_df['y'] = pow(train_df['y'],0.45)
    msqrt.fit(train_df)
    preds_np  += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    preds_nph += pow(msqrt.predict(test_all)['yhat'],1/0.45)
    n_fold = n_fold + 1

#求均值
avg_preds  = preds_np/n_fold
avg_predsh = 2*preds_nph/n_fold
avg_predsb = 2*preds_npb/n_fold

#经多次训练结果分析发现，第三段是否关闭年季节性均值相差接近0.3
#于是采用关闭年季节的10模均值作为前20个点的值（更接近2019-05-31的值）
#采用不关闭年季节性的10模均值作为后20个点的值（提高预测段内的差异性）

sub = pd.read_csv('../data/submission.csv')
sub.loc[0,1:] = np.array( avg_preds[56*0:56*1] )
sub.loc[1,1:] = np.array( avg_preds[56*1:56*2] )
sub.loc[2,1:] = np.array( avg_preds[56*2:56*3] )
sub.loc[3,1:] = np.array( avg_preds[56*3:56*4] )
sub.loc[4,1:] = np.array( avg_preds[56*4:56*5] )

sub.loc[2,1:21] = np.array( avg_predsh[56*2:56*2+20] )
sub.loc[2,-20:] = np.array( avg_predsb[56*3-20:56*3] )

sub.to_csv('../subs/js_prophet_last.csv',index=False)