作业目的:基于某医院某科室挂号数据(2000年-2011年)分析某流行病的发展趋势。预测未来2年这种流行病的发病人数,利用得到的预测值帮助医院制订对此流行病的应对措施,如:床位的合理利用,相关药品储备,医生和护士的轮岗和值班日程安排等。 数据来源:源于某深圳某医院的真实数据,由于保密协议,作者己对数据进行线性模糊化处理,但大体趋势还是可以体现的。 建模与分析方法:时间序列模型,利用差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)进行分析预测。 参考资料: http://baike.baidu.com/view/1370366.htm http://www.stat.pitt.edu/stoffer/tsa3/R_toot.htm http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html 特别鸣谢:感谢王大庆同学在我苦于寻找分析数据的时候,跟我分享了他的R 语言安装包增长统计的时序分析计划。 1. 样本数据
2. 以季度为基本单位,分解样本数据,分析整个样本数据中的趋势。
这幅图反映的是这个流行病每年的发生的频率,说明这种流行病是在每年的6月到9月是属于高发病期。 3. 流行病在2000年到2011年的发展趋势图
从trend这幅图中可以,在2000到2011年,每年感染这种流行病的人数一直保持着上升的趋势。说明在未来的日子里,这种流行病的发病人数可能会越来越多。 4. 使用经典时间序列预测模型:差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA) 对未来2年的发病人数进行预测,可预测值为:
分析可得,2012和2013年7月的发病人数是最多的。由分析模型可得发病人数在这2年中的最大值和最小值数据是:
以7月份为例子,2012年7月份的置信区间是[7553.426,8963.332],2013年7月份的置信区间是[7192.842, 9740.163]. 所以建议医院在未来2年中对7月份做预案计划的参考区间是[8258.379,8963.322],[8466.502, 9740.163] (即以预测值与最大值之间的数据为参考).
5. 趋势图为:
|
转载于:https://my.oschina.net/u/2245039/blog/379172