资金流入流出预测—时间序列规则

最新推荐文章于 2023-10-17 11:06:06 发布

sosososoon

最新推荐文章于 2023-10-17 11:06:06 发布

阅读量1.4k

点赞数

分类专栏：数据分析与挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/sosososoon/article/details/108162909

版权

数据分析与挖掘专栏收录该内容

25 篇文章 5 订阅

订阅专栏

资金流入流出预测—时间序列规则

选择特征

可以用简单的统计量来作为特征，从中提取出有用的信息

中位数：按顺序排列的一组数据中居于中间位置的数，较为稳健
均值：当分布较符合正态分布时，可以较好的代表整体特征
临近数据：离待测数据越近的数据对其影响越大

基于周期因子的时间序列预测

支付数据、客流量数据、交通数据等时间序列通常都具有明显的周期性。当判断出时间序列的周期性后，就需要确定周期的长度（一周或一个月）和组成一个周期的元素（周一到周日、1日至31日），然后结合STL分解 (Seasonal and Trend decomposition using Loess) 观察周期变化。但是上述过程没有考虑到节假日、突发事件等情况造成的影响。

基本规则法（baseline）

假设给定下面的数据，任务是根据前三周的数据预测第四周每天的客流量。

	周一	周二	周三	周四	周五	周六	周日	周均值
第一周	20	10	70	50	250	200	100	100
第二周	26	18	66	50	180	140	80	80
第三周	15	8	67	60	270	160	120	100

在这里插入图片描述
从图中可以明显地看到周一到周日的周期波动。预测的核心任务就是尽可能准确的提取这种周期。

STEP 1：获得周期因子

方式1：每天的数据除以周均值，然后按列取中位数
方式2：季节指数的计算方式，获得每日（星期几）均值，再除以整体均值

在这里插入图片描述
STEP 2：获得base

做预测时，只要将周期因子乘以base，就可以得到下一周的预测。例如，取最后一周的平均客流量100作为base，得到如下结果：

在这里插入图片描述
预测下个月每一天的情况：

如果想预测下个月每天的客流量情况，需要提取以月为周期的因子，具体可以采用如下方式：

获得每日（1号-31号）均值
统计每日（周一至周日）的频次
基于星期周期因子获得加权均值
根据因子和每日均值进行预测

针对周期因子的优化

按列提取中位数是一种简单而有效的提取周期因子的方法。中位数具有鲁棒性，不受极端值的影响。但中位数损失了很多信息。在实践中，可以在此基础上进一步优化，比如可以提取一个均值和一个中位数，然后将均值和中位数融合。融合的比例按照测试集的表现来确定。也可以根据与预测周的时间距离来赋予不同的权重。

针对base的优化

直接用最后一周的平均客流量作为base并不一定是最好的方法，也许最后三天或最后五天的均值能更好的反映最新的情况。但是，直接对最后三天客流量取均值的做法并不合适（最后三天是周末，这样取的base会偏大）。需要去掉周期性因素后，再取平均。具体公式如下：
$去周期以后的客流量 = 客流量 / 周期因子$
在这里插入图片描述
然后就可以取最后三天的平均， $(108 + 91.4 + 120) / 3 = 106.5$ ，作为base。具体取多少天的值，也要通过测试集的表现来确定，也可以按某些函数形式来给每天赋予不同的权重。

其他影响因素

如天气、温度等，针对这些影响因素，可以提取残差，然后用残差训练一个关于这些因素的模型（推荐使用xgboost）。

代码实现

导入库函数：

import pandas as pd 
import sklearn as skr
import numpy as np
import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import warnings 
from dateutil.relativedelta import relativedelta
warnings.filterwarnings('ignore')

数据预处理：

## 加载balance data
def load_data(path: str = 'user_balance_table.csv')->pd.DataFrame:
    data_balance = pd.read_csv(path)
    data_balance = add_timestamp(data_balance)
    return data_balance.reset_index(drop=True)
    
## 添加时间戳
def add_timestamp(data: pd.DataFrame, time_index: str = 'report_date')->pd.DataFrame:
    data_balance = data.copy()
    data_balance['date'] = pd.to_datetime(data_balance[time_index], format= "%Y%m%d")
    data_balance['day'] = data_balance['date'].dt.day
    data_balance['month'] = data_balance['date'].dt.month
    data_balance['year'] = data_balance['date'].dt.year
    data_balance['week'] = data_balance['date'].dt.week
    data_balance['weekday'] = data_balance['date'].dt.weekday
    return data_balance.reset_index(drop=True)

## 计算每天的申购总额及赎回总额(2014-03-31之后的)
def get_total_balance(data: pd.DataFrame, date: str = '2014-03-31')->pd.DataFrame:
    df_tmp = data.copy()
    df_tmp = df_tmp.groupby(['date'])['total_purchase_amt','total_redeem_amt'].sum()
    df_tmp.reset_index(inplace=True)
    return df_tmp[(df_tmp['date']>= date)].reset_index(drop=True)

## 生成测试数据
def generate_test_data(data: pd.DataFrame)->pd.DataFrame:
    total_balance = data.copy()
    start = datetime.datetime(2014,9,1)
    testdata = []
    while start != datetime.datetime(2014,10,15):
        temp = [start, np.nan, np.nan]
        testdata.append(temp)
        start += datetime.timedelta(days = 1)
    testdata = pd.DataFrame(testdata)
    testdata.columns = total_balance.columns

    total_balance = pd.concat([total_balance, testdata], axis = 0)
    total_balance = total_balance.reset_index(drop=True)
    return total_balance.reset_index(drop=True)

## 读取用户信息
def load_user_information(path: str = 'user_profile_table.csv')->pd.DataFrame:
    return pd.read_csv(path)

## 载入数据 
balance_data = load_data('Dataset/user_balance_table.csv')
balance_data = add_timestamp(balance_data)
total_balance = get_total_balance(balance_data, date = '2014-03-01')
total_balance = generate_test_data(total_balance)
total_balance = add_timestamp(total_balance, 'date')

## 创建数据的深层拷贝
data = total_balance.copy() # 2014-03-01到2014-10-14

生成时间序列规则：

## 定义生成时间序列规则预测结果的方法
def generate_base(df: pd.DataFrame, month_index: int)->pd.DataFrame:  # 根据2014-03-01到month_index时间段生成base
    # 选中固定时间段的数据集
    total_balance = df.copy()
    total_balance = total_balance[['date','total_purchase_amt','total_redeem_amt']]
    s1 = '2014-'+str(month_index)+'-01'
    total_balance = total_balance[(total_balance['date'] >= '2014-03-01') & (total_balance['date'] < s1)]
    # total_balance是2014-03-01到2014-month_index-01的申购赎回总额

    # 加入时间戳
    total_balance['weekday'] = total_balance['date'].dt.weekday # 星期几
    total_balance['day'] = total_balance['date'].dt.day # 日
    total_balance['week'] = total_balance['date'].dt.week # 第几周
    total_balance['month'] = total_balance['date'].dt.month # 月
    
    # 统计周期因子 (获得每日（工作日或周末）均值，再除以整体均值)
    mean_of_each_weekday = total_balance[['weekday']+['total_purchase_amt','total_redeem_amt']].groupby('weekday',as_index=False).mean()
    # 计算星期一到星期日的申购赎回总额的平均值
    for name in ['total_purchase_amt','total_redeem_amt']:
        mean_of_each_weekday = mean_of_each_weekday.rename(columns={name: name+'_weekdaymean'}) # 重命名列名
    mean_of_each_weekday['total_purchase_amt_weekdaymean'] /= np.mean(total_balance['total_purchase_amt'])
    mean_of_each_weekday['total_redeem_amt_weekdaymean'] /= np.mean(total_balance['total_redeem_amt']) # 周一到周日的均值/所有天的均值

    # 合并统计结果到原数据集
    total_balance = pd.merge(total_balance, mean_of_each_weekday, on='weekday', how='left') # 左连接

    # 分别统计周一到周日在(1~31)号出现的频次
    weekday_count = total_balance[['day','weekday','date']].groupby(['day','weekday'],as_index=False).count()
    weekday_count = pd.merge(weekday_count, mean_of_each_weekday, on='weekday')

    # 依据频次对周期因子total_purchase/redeem_amt_weekdaymean进行加权，获得日期因子
    # 日期因子 = 周期因子*（周一到周日在(1~31)号出现的次数/共有几个月）
    weekday_count['total_purchase_amt_weekdaymean'] *= weekday_count['date']   / len(np.unique(total_balance['month']))
    weekday_count['total_redeem_amt_weekdaymean'] *= weekday_count['date']  / len(np.unique(total_balance['month']))
    day_rate = weekday_count.drop(['weekday','date'],axis=1).groupby('day',as_index=False).sum()

    # 将训练集中所有日期的均值剔除日期残差得到base
    # 1~31号的申购赎回总额/日期因子
    day_mean = total_balance[['day'] + ['total_purchase_amt','total_redeem_amt']].groupby('day',as_index=False).mean()
    day_pre = pd.merge(day_mean, day_rate, on='day', how='left')
    day_pre['total_purchase_amt'] /= day_pre['total_purchase_amt_weekdaymean']
    day_pre['total_redeem_amt'] /= day_pre['total_redeem_amt_weekdaymean'] 
    
    # 生成测试集数据
    for index, row in day_pre.iterrows():
        if month_index in (2,4,6,9) and row['day'] == 31: # 小月没有31号
            break
        day_pre.loc[index, 'date'] = datetime.datetime(2014, month_index, int(row['day'])) # 添加日期列

    # 基于base与周期因子获得最后的预测结果
    day_pre['weekday'] = day_pre.date.dt.weekday
    day_pre = day_pre[['date','weekday']+['total_purchase_amt','total_redeem_amt']]
    day_pre = pd.merge(day_pre, mean_of_each_weekday,on='weekday')
    day_pre['total_purchase_amt'] *= day_pre['total_purchase_amt_weekdaymean'] # baee*周期因子
    day_pre['total_redeem_amt'] *= day_pre['total_redeem_amt_weekdaymean']

    day_pre = day_pre.sort_values('date')[['date']+['total_purchase_amt','total_redeem_amt']]
    return day_pre

生成预测结果：

## 生成预测结果（以及残差）

base_list = []
for i in range(4, 10):
    base_list.append(generate_base(data, i).reset_index(drop=True))

base = pd.concat(base_list).reset_index(drop=True)
for i in ['total_purchase_amt','total_redeem_amt']:
    base = base.rename(columns={i: i+'_base'})

data = pd.merge(data.reset_index(drop=True), base.reset_index(drop=True), on='date', how='left').reset_index(drop=True)

data['purchase_residual'] = data['total_purchase_amt'] / data['total_purchase_amt_base']

data['redeem_residual'] = data['total_redeem_amt'] / data['total_redeem_amt_base'] # 真实值/预测值

结果可视化：

画出预测申购总额和真实申购总额的图像：

## 画出预测申购总额和真实申购总额的图像
real = total_balance[('2014-04-01' <= total_balance['date']) & (total_balance['date'] <= '2014-10-14' )][['date','total_purchase_amt','total_redeem_amt']].reset_index(drop=True)
fig = plt.figure(figsize=(20,6))
plt.plot(base['date'],base['total_purchase_amt_base'] )
plt.plot(real['date'],real['total_purchase_amt'])  
plt.legend(['predict_total_purchase_amt','total_purchase_amt']) 
plt.xlabel("Time")
plt.ylabel("Amount")
plt.show()

在这里插入图片描述
画出预测赎回总额和真实赎回总额的图像：

## 画出预测赎回总额和真实赎回总额的图像
fig = plt.figure(figsize=(20,6))
plt.plot(base['date'],base['total_redeem_amt_base'])
plt.plot(real['date'],real['total_redeem_amt'])  
plt.legend(['predict_total_redeem_amt','total_redeem_amt']) 
plt.xlabel("Time")
plt.ylabel("Amount")
plt.show()

在这里插入图片描述
画出残差的图像：

## 画出残差图像
fig = plt.figure(figsize=(20,6))
plt.plot(data['date'],data['purchase_residual'])
plt.plot(data['date'],data['redeem_residual'])
plt.legend(['purchase_residual','redeem_residual']) 
plt.xlabel("Time")
plt.ylabel("residual")
plt.show()