时间序列基础

时间序列

时间序列是通过以往数据对未来预测的一种方法

区别于回归,时间序列必须以时间为索引

因为时间为索引,就拥有了好多专门以时间为基准的各种处理方式

研究生报名时间序列分析

我们从研招网上找点现成的数据测试一下

研招网: https://yz.chsi.com.cn/

基本上各种数据都可以按照这个格式

数据

收集数据

我们收集数据保存一个xls
在这里插入图片描述

整理数据

注意,数据一定要设定特有的格式

比如,时间要设置时间日期格式

在这里插入图片描述

数值的部分也设置成数值格式

数据模型分析

现在只用《数据模型分析》的知识就可以看见我们的数据结构

纯用xls就可以作图以及回归

在这里插入图片描述

2019年数据和2020年数据我也补上了,但是2020年的数据只能是猜测,因为2021年中才能有官方数据

为什么要做时间序列分析

其实很多数据都是关联性很强的,有了之前的数据可以预测未来的数据

虽然有人表示,外部因素很多,预测价值不大

但是要知道,大部分数据有外部因素的影响,也有内部的决定性因素

我们找到内部的决定性数据做预测不就可以了吗?

我们做点什么总会比完全听天由命好得多!

时间序列

现在开始时间序列分析

本程序源码

github: https://github.com/thales-ucas/postgrad.git

gitee: https://gitee.com/thales-ucas/postgrad.git

jupyter: https://gitee.com/thales-ucas/postgrad/blob/main/ts.ipynb

如果手机观看,请改成电脑格式

准备

首选准备工具和选择语言

开发工具

我们使用的是python3.8

库用的是statsmodels

官网 https://www.statsmodels.org/stable/index.html

其他的库 pandas、numpy、matplotlib之类不多说

其他选择

stata可能对不懂代码的人更简单,但是我毕竟更喜欢Python

https://www.stata.com/

数据处理

读取数据,并把‘年份’作为index

import pandas as pd # 加载pandas库
df = pd.read_excel('./postgrad.xlsx', index_col='年份') # 读取数据,并把‘年份’作为index

参数df里面将会是下面的数据

报名人数(万人)	录取人数(万人)
年份		
1994年	11.4	4.2
1995年	15.5	4
1996年	20.4	4.7
1997年	24.2	5.1
1998年	27.4	5.8
1999年	31.9	7.2
2000年	39.2	10.3
2001年	46	13.3
2002年	62.4	16.4
2003年	79.7	22
2004年	94.5	27.3
2005年	117.2	31
2006年	127.12	34.2
2007年	128.2	36.1
2008年	120	38.6
2009年	124.6	44.9
2010年	140.6	47.44
2011年	151.1	49.46
2012年	165.6	51.7
2013年	176	54.09
2014年	172	54.87
2015年	164.9	57.06
2016年	177	58.98
2017年	201	72.22
2018年	238	76.25
2019年	290	70
2020年	341	111.4

pandas自动就提供了画图

import matplotlib.pyplot as plt # 加载matplotlib库
plt.rcParams['font.family'] = ['SimHei'] # 用来解决画图不显示中文的问题
plt.rcParams['axes.unicode_minus'] = False # 

df.plot()

只用调用plot函数,自动就会生成图

在这里插入图片描述

所以说,数据几乎不用处理

自相关

这个是时间序列的最重要的部分

自相关函数(Autocorrelation Function)简称acf

自相关(英语:Autocorrelation),也叫序列相关,是一个信号于其自身在不同时间点的互相关。非正式地来说,它就是两次观察之间的相似度对它们之间的时间差的函数。它是找出重复模式(如被噪声掩盖的周期信号),或识别隐含在信号谐波频率中消失的基频的数学工具。它常用于信号处理中,用来分析函数或一系列值,如时域信号。
Zovko, Ilija I. Topics in Market Microstructure. Amsterdam University Press. 2008-09-01. ISBN 9789056295387

其实是非常多的公式

  • 在统计学上,自相关被定义为,两个随机过程中不同时刻的数值之间的皮尔森相关(Pearson correlation).
  • 如果X为广义平稳过程,则 x t x_t xt的期望 μ t \mu_t μt以及标准差 σ t \sigma_t σt不随时间t变化,则自相关函数可以表示为时间延迟 τ \tau τ的函数,如下
  • 信号处理

其中“*”是卷积算符,(·)*为取共轭。

同一时间函数在瞬时t和t+a的两个值相乘积的平均值作为延迟时间t的函数,它是信号与延迟后信号之间相似性的度量。延迟时间为零时,则成为信号的均方值,此时它的值最大。

简而言之,自相关函数是表达信号和它的多径信号的相似程度。一个信号经过类似于反射、折射等其它情况的延时后的副本信号与原信号的相似程度。

百度百科: https://baike.baidu.com/item/%E8%87%AA%E7%9B%B8%E5%85%B3%E5%87%BD%E6%95%B0/9851266?fromtitle=ACF&fromid=10911147#viewPageContent

但是我们的工具已经集成好了

from statsmodels.tsa import stattools # 加载统计工具
stattools.acf(df['报名人数(万人)']) # 使用acf函数查看自相关,这块必须把数据单独处理

直接可以得到数据

array([ 1.        ,  0.81423905,  0.6502
  • 8
    点赞
  • 63
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值