应用时间序列分析清华大学出版社电子版_分析方法_应用时间序列法预测最高在线人数...

在游戏开测、版本重大更新大量玩家涌入的时候,服务器准备不足往往是令运营团队头疼的事情。如果事前能对最高在线进行预判,根据单服最佳承载人数,就可以判断要开或者加开多少组服务器了。下面主要是采用引入百度指数作为自变量的时间序列分析方法对最高在线进行预测。

百度指数是以百度海量网民行为数据为基础的数据分享平台,是当前互联网乃至整个数据时代最重要的统计分析平台之一,自发布之日便成为众多企业营销决策的重要依据。百度指数能够告诉用户某个关键词在百度的搜索规模有多大,总体反映营销活动当前的市场热度。

时间序列分析(Time seriesanalysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。

本篇主要介绍利用SPSS操作时间序列分析预测的详细步骤。采用《游戏A》2015年1月27日至2015年8月31日的最高在线以及《游戏A》关键词的百度指数作为样本数据,对2015年9月1日至9月5日的游戏最高在线进行预测。图1为样本采集期间的最高在线和百度指数的曲线图,从图中可以看到百度指数与最高在线的变化还是基本一致的。

f242da0de4b96c085af9982189ba0e09.png

图1

将样本数据导入到SPSS,这里注意SPSS在操作时间序列模型的时候,不能利用自带的日期数据,需要重新定义。故点击“数据”按钮,选择“定义日期”,弹出界面如下(见图2),由于样本数据为每日数据,可选择“日”,从“1”开始即可。

a3f76f95ceea57dba83631ecaf880e7f.png

图2

点击“确认”后,原始数据窗口会多出两个字段:“DAY_”和“DATE_”(见表1)。

651c80b47a7f77f5f317f0029546569e.png

表1

在SPSS中再点击“分析”,选择“预测”,再选择“创建模型”,弹出如下界面框。

486658491315cd88dcf1d51c3eca5906.png

图 3

将iOS_pcu拖进“因变量”,baidu_index拖进“自变量”,方法选用“专家建模器”;点击“条件”,选择“仅限ARIMA模型”,不考虑季节性模型(见图4)。

424be1b24de2e080340a218dbefa41d1.png

图 4

“统计量”、“图表”这两块的选择参见图5、图6,由于需要对15年9月1日至5日的最高在线进行预测,则勾选预测值、拟合值、预测值的置信区间等相应指标。

144736c34ef3d10fa44fc68e310e33fa.png

图 5

81c9cb2a0e355f1afd64880988dfd654.png

图 6

我们分别设定:预测值输出,95%置信度的上下限。这里要注意SPSS中文版本有个小Bug,就是“预测值(P)”,这个必须要修改一下,不然无法运行,这里更改为“P预测值”(见图7)。

291952e5c6e0f188257c7f08d710f898.png

图 7

由于要做预测,“选项”这一栏,我们选择“模型评估期后的第一个个案例到指定日期之间的个案”,由于采样样本和预测样本总共有222个,所以这里的“日”填写“222”(见图8)。

4f06a96495ce3806360c3d1a734db573.png

图8

在选择好模型和方法后,点击“确定”,就可以得到模型结果了。表2为得到的ARIMA模型,表3、表4为统计检验指标结果。Sig值越大越好,平稳的R方也是越大越好。    

从表3中可以看到,该模型的sig值为0.808,sig值列给出了 Ljung-Box 统计量的显著性值,该检验是对模型中残差错误的随机检验,表示指定的模型是否正确。显著性值小于0.05 表示残差误差不是随机的,则意味着所观测的序列中存在模型无法解释的结构。R方值为0.429,此统计量是序列中由模型解释的总变异所占比例的估计值。该值越高(最大值为1.0),则模型拟合会越好。

表2 模型描述

模型类型

模型 ID

iOS_pcu

模型_1

ARIMA(0,1,6)

表3 模型统计量

377abed3fe1a742fbd1ff08386d3a88a.png

表4 模型拟合

dffae0d9fefa986ba4e8e05c6b361569.png

表5为预测的结果值,9月1日至5日的游戏最高在线分别为12664、13859、13756、13538、13170。图9为预测值与观测值的曲线拟合图,圆圈内为未来几天的预测值曲线。与此同时,SPSS活动数据集中也存储了未来5天的预测数值(见表6)。

表5 预测

02f3d9103582dcdbd6171e3441f8120d.png

对于每个模型,预测都在请求的预测时间段范围内的最后一个非缺失值之后开始,在所有预测值的非缺失值都可用的最后一个时间段或请求预测时间段的结束日期(以较早者为准)结束。

21d214dd519961a7bf8592cbd9b232b2.png

图 9 观测值与预测值曲线对比

表6 原始数据集的预测值 

3ee7952b87ce9526bfcc59ee3fd76580.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值