概率统计笔记: 协方差与相关系数

1 协方差

1.1 定义

假设两个随机变量X和Y满足未知的概率分布,那么X和Y的协方差为:

其中E是求解数学期望的运算符,μx,μy分别是X和Y的均值

  • 对角线(p; p)上的元素:第p维特征的方差
  • 矩阵(p; q)元的大小反映了所有样本第p维和第q维数据 的相关性(若不相关,则为0

1.2 存在的问题

        协方差告诉我们两个随机变量是如何一起移动的,但只用协方差衡量变量相关性存在一些问题:协方差是有量纲的,它的大小受随机变量本身取值范围的影响

2 相关系数

        人们希望使用某个和协方差有关,但是又是无量纲的测量来描述两个随机变量的相关性。

        最简单的做法就是用变量自身的波动对协方差进行标准化,相关系数便由此得来。

2.1 相关系数的定义

        令ρ表示X和Y的相关系数,它的定义为

        其中σx和σy分别是X和Y的标准差

        通过使用X和Y的标准差对它们的协方差归一化,ρ的取值范围为 [-1, +1]: 

2.2 相关系数和XY分布之间的关系

  • ρ(X,Y)=1表示X和Y之间存在确切的线性正相关;

  • ρ(X,Y)=0表示X和Y之间不存在任何线性相关性;

  • ρ(X,Y)=-1表示X和Y之间存在确切的线性负相关。

        值得一提的是,相关系数仅仅刻画 X和Y之间的线性相关性;它不描述它们之间的(任何)非线性关系。

3 时间序列的自相关系数

3.1 时间序列的弱平稳性

算法笔记:ARIMA_UQI-LIUWJ的博客-CSDN博客 提及了弱平稳性

我们这里涉及的弱平稳性性质是:如果时间序列数据具有弱平稳性,那么对于所有的时刻t和任意的间隔k,值之间的协方差\sigma(v_t,v_{t+k})=\gamma_k,其中γk与时间t无关。他仅仅依赖于时间间隔k。

(比如样本是 {v_1,v_2,\dots,v_n},那么v_{t+k}=\{v_{1+k},\dots,v_{n+k}\})

3.2 自相关系数ACF

v_tv_{t-k}的自相关系数称为v_t的间隔为k的自相关系数。

\rho_k=\frac{Cov(v_t,v_{t+k})}{\rho_{v_t}\rho_{v_{t+k}}} =\frac{Cov(v_t,v_{t+k})}{\sqrt{Cov(v_t,v_t)}\sqrt{Cov(v_{t+k},v_{t+k})}} =\frac{\gamma_k}{\gamma_0}

 当k=0的时候,有:

说明对任何时刻t, v_t的间隔为k的自相关系数恒为1 

 进一步,我们计算

Cov(v_t,v_{t+k})=E(v_t-\bar{v_t})(v_{t+k}-\bar{v_{t+k}})=E(v_t-\bar{v})(v_{t+k}-\bar{v})

【弱平稳性的性质,时间序列的期望不变】

这里的v_t是 {v_1,v_2,\dots,v_n},v_{t+k}=\{v_{1+k},\dots,v_n\}

 所以Cov(v_t,v_{t+k})=\frac{\sum_{t=1}^{n-k}(v_t-\bar{v})(v_{t+k}-\bar{v})}{n-k} 

【注:也有很多版本底下除的是n,就不太明白究竟应该是哪个。。。但如果n很大h很小的时候,差距并不是很大】

3.2.1 自相关图解读

下面为一些时间序列的自相关图。它们呈现出完全不同结构的自相关性。

这个自相关图的时间序列存在明显的趋势

这个相关图的时间序列存在明显的周期性。

 这个则同时有一定的趋势和周期性

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值