1. 协方差和相关系数的定义
协方差
协方差用于衡量两个随机变量之间的线性关系。对于两个随机变量 X 和 Y ,协方差定义为:
性质:
- Cov(X,Y)>0 :X 和 Y 正相关。
- Cov(X,Y)<0 :X 和 Y 负相关。
- Cov(X,Y)=0 :X 和 Y 不相关(仅表示线性不相关)。
单位:协方差的值受变量单位的影响,数值可能较难直观比较。
相关系数
相关系数是协方差的标准化形式,用于消除量纲的影响。对于两个随机变量 X 和 Y ,相关系数定义为:
其中:
是 X 的标准差;
是 Y 的标准差。
性质:
;
:完全正相关;
:完全负相关;
:无相关性。
2. 协方差矩阵和相关系数矩阵的定义
协方差矩阵
协方差矩阵 Σ 是一个对称矩阵,用于描述多维数据中每对特征之间的协方差。对于 n 维随机向量 ,协方差矩阵定义为:
性质:
- 对角线元素
表示方差;
- 非对角线元素
表示协方差。
相关系数矩阵
相关系数矩阵 R 是协方差矩阵的标准化版本,用于描述各变量之间的线性相关性。定义为:
其中:
性质:
- 对角线元素
;
,表示
和
的相关程度。
3. 协方差矩阵和相关系数矩阵的关系
相关系数矩阵 R 可以通过协方差矩阵 Σ 标准化得到:
即:
其中:
- D是协方差矩阵的对角元素构成的对角矩阵,即
。
协方差矩阵与相关系数矩阵的区别:
- 协方差矩阵的值受变量的单位和尺度影响,而相关系数矩阵的值在 [−1,1] 之间,是无量纲的;
- 相关系数矩阵更直观地反映变量间的线性相关程度。
4. 举例说明
假设有两个随机变量 X 和 Y :
X | Y |
---|---|
1.0 | 2.0 |
2.0 | 4.0 |
3.0 | 6.0 |
(1)协方差计算
,
;
- 协方差为:Cov(X,Y)=2.0 。
(2)相关系数计算
,
;
- 相关系数为:
。
总结
- 协方差反映两个变量共同变化的方向和程度,但受量纲影响;
- 相关系数是协方差的标准化版本,更直观地衡量线性相关性;
- 协方差矩阵描述所有特征之间的协方差关系;
- 相关系数矩阵是协方差矩阵的无量纲版本,更适合分析变量相关性。