统计学习：协方差和相关性

最新推荐文章于 2024-04-20 17:25:35 发布

Big_quant

最新推荐文章于 2024-04-20 17:25:35 发布

阅读量2.9k

点赞数

分类专栏：统计学文章标签：统计学习协方差与相关性

统计学专栏收录该内容

10 篇文章 14 订阅

订阅专栏

统计学习

前言

最近在做信号处理感觉理论掌握的不够扎实，开始了重新的补习，提高自己的知识水平。
在概率论和统计学中，协方差和相关性的数学概念非常相似。它们用近似的方式度量了两个随机变量或者一组随机变量偏离自己期望值的趋势的程度。

协方差和相关性

如果X和Y是两个随机变量，它们的均值（期望值）是 $\mu X$ , $\mu Y$ ,同时它们的标准差是
$\sigma X$ 以及 $\sigma Y$ ,分别地，它们的协方差和相关性可以通过以下式子计算：

$covariance$ $σ _{ X Y} = E [ ( X − μ_ X ) ( Y − μ_Y ) ]$

$correlation$ $ρ_ {X Y} = E [ ( X − μ_X ) ( Y − μ_Y ) ] / ( σ _X σ_Y )$

因此：

${\text{cov}}_{XY}=\sigma _{XY}=\rho _{XY}\sigma _{X}\sigma _{Y}$

其中E代表求期望,特别地，相关性是无量纲的，而协方差的单位是将两个变量的单位相乘。

如果Y的值和X的值一直都是相同的，我们将会得到一个变量自身的协方差
$(i.e. {\displaystyle \sigma _{XX}} )$ 也就是通常意义上讲的方差，一般简写为 $σ X ^2$ ,
也就是标准差的平方。
一个变量自身的相关性永远是1（除了在退化的情况下，这个情况下，X是一个常量，因此两个变量的方差都是0，也因此相关性计算中会涉及除数为0的情况，也因此相关性并不存在）。
更通俗地说，两个变量间的相关性会是1（或者-1），如果它们中的一个是另一个通过一个具有正斜率（或者负斜率）的线性函数得到的。

虽然从理论上协方差的值和相关性的值通过上述方式联系在了一起，但这些统计量的样本估计的概率分布并没有以任何简单的方式关联，因此它们通常需要分开处理。

多重随机变量

对于任意数量超过1的随机变量，可以将随机变量堆积成一个随机向量，其第i个元素是第i个随机变量。然后，可以将方差和协方差放置在协方差矩阵中，其中（i，j）元素是第i个随机变量和第j个随机变量之间的协方差。同样，相关性指标可以放置在相关矩阵中。

时间序列分析

对于一个满足宽平稳过程条件的时间序列，即它的均值和方差都是平稳的（不随着时间变化）
$(E(Xn+m) = E(Xn) = μX 和 var(Xn+m) = var(Xn) 并且这同样对于Y 也成立).$

在这个情况下，互协方差和互相关性是随着时间变化的函数：
$cross-covariance {\displaystyle \sigma _{XY}(m)=E[(X_{n}-\mu _{X})\,(Y_{n+m}-\mu _{Y})],}$
$cross-correlation {\displaystyle \rho _{XY}(m)=E[(X_{n}-\mu _{X})\,(Y_{n+m}-\mu _{Y})]/(\sigma _{X}\sigma _{Y}).}$

如果Y和X是同一个随机过程，以上的表达式则被叫做自协方差和自相关性。

autocovariance $σ X X ( m ) = E [ ( X n − μ X ) ( X n + m − μ X ) ] ,$
$\sigma _{XX}(m)=E[(X_{n}-\mu _{X})\,(X_{n+m}-\mu _{X})],$
autocorrelation $\rho _{XX}(m)=E[(X_{n}-\mu _{X})\,(X_{n+m}-\mu _{X})]/(\sigma _{X}^{2}).$