时间序列规则

时间序列规则

很多比赛都可基于对背景的理解和数据分析来获取有用的规则因为可以被当作特征,简单高效,可解释性高。在时间序列的相关比赛中,周期因子可能是更好的方案。

对于中位数、临近数据等简单统计量可以作为特征,因为中位数稳健,均值当分布较符合正态分布时可以使用,临近数据在预测较近的数据可以使用

对于支付数据、客流量数据、交通数据等时间序列都通常具有明显的时间周期性。周期性是核心,一般要确定周期长度并且确定周期组成的元素。不过缺点是没有考虑节假日和突发事件。

1.获取周期因子。对于周期因子的获取有两种方式。一是除以周均值,然后按列取中位数。二是获取每日(工作日或周末)的均值再除以整体均值。
2.预测。需要乘以base,直接用最后一周的平均客流作为base。
3.对于下个月每一天的情况,需要获取每日的均值,统计每日为周一到周日的频次,然后基于星期周期因子获得加权均值,根据因子和每日均值预测。

时间序列概念

四大类影响因素(长期趋势、循环波动、季节、随机)

时间序列分解(加法模型、乘法模型、混合模型)

STL分解:最常用,周期+趋势+随机

指数平滑:

    水平型->简单指数平滑

    斜坡型->Holt两参数指数平滑

含趋势和周期->Holt-winters三参数指数平滑

ARIMA模型(整合移动平均自回归模型)

在ARMA模型(移动平均自回归模型)的基础上使用差分法解决非平稳序列

建模流程:预处理->定阶->建模->检验->预测(检验通过方可进行预测)

预处理:

是否平稳:时序图、自相关系数(平稳序列通常短期相关)、单位根检验(ADF、KPSS)
差分运算:K步差分(过差分:足够多次的差分运算可以使序列稳定,但会损失过度的信息)

是否纯随机序列(白噪声序列):“平稳”,完全无序
Box-Pierce检验(大样本)、Ljung-Box(小样本)

定阶:

根据自相关系数图和偏自相关系数图,选择合适的p和q

建模:

在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡

    AIC偏重拟合效果

    BIC对模型复杂度惩罚更重

    BIC有一条理论性质说如果正确模型在候选模型中则一定可以选到,AIC没有

模型检验:

显著性:如果提取信息充分,残差不应含有任何信息,即为白噪声

残差序列正态检验:数据量用ks检验(原假设残差序列服从正态分布)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值