时间序列规则
前言
写在前面✍
- 本系列笔记基于天池平台上“资金流入流出预测-挑战Baseline”学习赛,记录如何完整的打一次数据挖掘类比赛。同时,该比赛属于序列建模问题,希望学习完成这个任务,可以对序列问题的处理有一定的独立思考能力和实践操作能力,可以将所学理论,用编码的形式和实际的问题得到深入。
- 第二篇,时间序列规则探究。继上一篇文章对时间序列数据进行统计分析之后,
- 学习前先提问:
A. 【挖掘规则】重要性、基本方法
B. 【baseline】利用规则得到基准模型
一、时间序列规则是什么?
1.规则
规则就是从给定的数据中经过统计分析得出来的一些变化模式,往往用分析出来的规则对数据进行建模,更加简单、高效,而且可解释性强。
比如,在一般的时间序列模型的预测任务中,使用中位数、均值、周期因子等可以挖掘出很有用的规则。
简单统计量,可作为特征
• 中位数:稳健
• 均值:当分布较符合正态分布时
• 临近数据:临待预测数据较近的数据
支付数据、客流量数据、交通数据等时间序列通常都具有明显的周期性
• 周期性是核心
• 确定周期(一周、一月)
• 确定组成一个周期的元素(周1-周日、1号-31号)
• 结合STL分解观察周期变化
• 缺点:不考虑节假日、突发事件等(这些可以额外提取特征,增加模型的可靠性)
2. 基于周期因子(规则)的时间序列模型
Step1 获得周期因子
Step2 预测