协方差矩阵和相关系数矩阵

1. 协方差和相关系数的定义

协方差

协方差用于衡量两个随机变量之间的线性关系。对于两个随机变量 X 和 Y ,协方差定义为:

\text{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]

性质:

  • Cov(X,Y)>0 :X 和 Y 正相关。
  • Cov(X,Y)<0 :X 和 Y 负相关。
  • Cov(X,Y)=0 :X 和 Y 不相关(仅表示线性不相关)。

单位:协方差的值受变量单位的影响,数值可能较难直观比较。


相关系数

相关系数是协方差的标准化形式,用于消除量纲的影响。对于两个随机变量 X 和 Y ,相关系数定义为:

\rho_{X, Y} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}

其中:

  • \sigma_X = \sqrt{\text{Var}(X)} 是 X 的标准差;
  • \sigma_Y = \sqrt{\text{Var}(Y)} 是 Y  的标准差。

性质:

  • \rho_{X, Y} \in [-1, 1]
  • \rho_{X, Y} = 1:完全正相关;
  • \rho_{X, Y} = -1:完全负相关;
  • \rho_{X, Y} = 0:无相关性。

2. 协方差矩阵和相关系数矩阵的定义

协方差矩阵

协方差矩阵 Σ 是一个对称矩阵,用于描述多维数据中每对特征之间的协方差。对于 n 维随机向量 X = [X_1, X_2, \dots, X_n],协方差矩阵定义为:

\Sigma = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots & \text{Cov}(X_1, X_n) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots & \text{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(X_n, X_1) & \text{Cov}(X_n, X_2) & \cdots & \text{Var}(X_n) \end{bmatrix}

性质:

  • 对角线元素 \Sigma_{ii} = \text{Var}(X_i) 表示方差;
  • 非对角线元素 \Sigma_{ij} = \text{Cov}(X_i, X_j) 表示协方差。

相关系数矩阵

相关系数矩阵 R 是协方差矩阵的标准化版本,用于描述各变量之间的线性相关性。定义为:

R = \begin{bmatrix} \rho_{X_1, X_1} & \rho_{X_1, X_2} & \cdots & \rho_{X_1, X_n} \\ \rho_{X_2, X_1} & \rho_{X_2, X_2} & \cdots & \rho_{X_2, X_n} \\ \vdots & \vdots & \ddots & \vdots \\ \rho_{X_n, X_1} & \rho_{X_n, X_2} & \cdots & \rho_{X_n, X_n} \end{bmatrix}

其中:

\rho_{X_i, X_j} = \frac{\text{Cov}(X_i, X_j)}{\sqrt{\text{Var}(X_i) \text{Var}(X_j)}}

性质:

  • 对角线元素 R_{ii} = 1
  • R_{ij} \in [-1, 1],表示 X_iX_j 的相关程度。

3. 协方差矩阵和相关系数矩阵的关系

相关系数矩阵 R 可以通过协方差矩阵 Σ 标准化得到:

R_{ij} = \frac{\Sigma_{ij}}{\sqrt{\Sigma_{ii} \Sigma_{jj}}}

即:

R = D^{-1/2} \Sigma D^{-1/2}

其中:

  • D是协方差矩阵的对角元素构成的对角矩阵,即 D_{ii} = \Sigma_{ii} ​。

协方差矩阵与相关系数矩阵的区别

  1. 协方差矩阵的值受变量的单位和尺度影响,而相关系数矩阵的值在 [−1,1] 之间,是无量纲的;
  2. 相关系数矩阵更直观地反映变量间的线性相关程度。

4. 举例说明

假设有两个随机变量 X 和 Y :

1.02.0
2.04.0
3.06.0
(1)协方差计算

\text{Cov}(X, Y) = \mathbb{E}[(X - \bar{X})(Y - \bar{Y})]

  • \bar{X} = 2.0, \bar{Y} = 4.0
  • 协方差为:Cov(X,Y)=2.0 。
(2)相关系数计算

\rho_{X, Y} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}

  • \sigma_X = 1.0\sigma_Y = 2.0
  • 相关系数为:\rho_{X, Y} = 1.0 。

总结

  1. 协方差反映两个变量共同变化的方向和程度,但受量纲影响;
  2. 相关系数是协方差的标准化版本,更直观地衡量线性相关性;
  3. 协方差矩阵描述所有特征之间的协方差关系;
  4. 相关系数矩阵是协方差矩阵的无量纲版本,更适合分析变量相关性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

勤劳的进取家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值