深度学习笔记:主成分分析(PCA)(1)——标准化、协方差、相关系数和协方差矩阵
笔者在学习主成分分析(PCA)的时候接触到了协方差矩阵的应用。这部分知识有些遗忘了,因此重新巩固一下,记录在此,希望能帮助到有需要的同学。
1. 概率论中的标准化、协方差、相关系数和协方差矩阵概念
1.1 随机变量的部分数字特征
假设有二维随机向量 (X,Y)
数字特征 | 意义 | 描述 |
---|---|---|
E(X) | 数学期望 | 反映 X 的平均值 |
方差 | 反映 X 与平均值偏离的程度 | |
协方差 | 等于
E((X−E(X))(Y−E(Y)))
,若为0,则说明
X
| |
ρ或ρXY | 相关系数(就是随机变量标准化后的协方差) | 等于 Cov(X,Y)D(X)√D(Y)√ |
1.2 随机变量的标准化
1.2.1 为什么要对随机变量进行标准化处理
随机变量的标准化,包含以下两点:
1. 将随机变量的分布中心
E(X)
移至原点,不使分布中心偏左或偏右
2. 缩小或扩大坐标轴,使分布不至于过疏或过密
在排除了这些干扰以后,随机变量
X
的一些性质就会显露出来,便于我们进行进一步的分析。
1.2 如何进行标准化处理
令随机变量
X∗=X−E(X)D(X)√
,
Y∗=Y−E(X)D(X)√
而标准化后的
X∗
和
Y∗
的协方差就是相关系数,用
ρ
或
ρXY
表示,即
Cov(X∗,Y∗)=Cov(X,Y)D(X)√D(Y)√=ρxy
1.3 相关系数的意义
通过上一节中随机变量的标准化,我们引出了相关系数,那么两个随机变量的相关系数有什么意义呢?
结论:相关系数是对于随机变量相关性的度量:
- 当相关系数
ρ=1
时,随机变量
X
和
Y 之间存在线性关系,且为正线性相关 - 当相关系数 ρ=−1 时,两者之间为负线性关系
- |ρ|≤1 ,线性相关性随着 |ρ| 的减小而减小。当 |ρ|=0 时,两者之间就不存在线性关系了
- 注意:
- 当
|ρ|=0
,随机变量
X
和
Y 是不线性相关的,但不能代表两者相互独立,他们之间可能存在别的相关关系;但当 X 和Y 相互独立时,它们的相关系数 |ρ|=0 。可以说, |ρ|=0 是 X 和Y 相互独立的必要不充分条件。 - 但是,当随机变量
(X,Y)
服从二维正态分布时,则
X
和
Y 不相关等价于两者相互独立
- 当
|ρ|=0
,随机变量
X
和
笔者在这里仅给出结论,因为本文仅仅是笔者在应用到相关知识点时的复习,为了理清思路而做的记录,关于上述结论的证明,可以在任意一本概率论的书中找到。
1.4 协方差矩阵
令
(X1,X2,...,Xn)
为
n
维随机向量(
B=⎡⎣⎢⎢⎢⎢b11b21⋮bn1b12b22⋮bn2⋯⋯⋯b1nb2n⋮bnn⎤⎦⎥⎥⎥⎥
为 (X1,⋯,Xn) 的协方差矩阵。
2.数理统计中的协方差和协方差矩阵概念
以上所说的是概率论中的协方差概念,但是我们在深度学习的实际运用中,通常是对已经获得的数据进行分析,因此类比概率论中的随机变量的数字特征,可以得到数理统计中的相关统计量,同时可以定义协方差和协方差矩阵
2.1数理统计中的统计量
记
(X1,X2,⋯,Xn)
是来自总体
X
的样本,
统计量 | 意义 | 描述 |
---|---|---|
X¯ | 样本均值 | X¯=1n∑ni=1Xi |
S2 | 样本方差 | S2=1n−1∑ni=1(Xi−X¯)2 |
S | 样本标准差 |
2.2样本协方差
样本均值表征了样本分布的中间点;而样本标准差则是样本各个观察值到样本分布中间点的距离的平均值。样本均值和样本标准差均是用来描述一维数据的。
但在生活中我们通常会用到多维数据,比如我们有两个总体
X
和
S2=1n−1∑ni=1(Xi−X¯)2
仿照样本方差定义,我们可以定义样本协方差:
Cov(X,Y)=1n−1∑ni=1(Xi−X¯)(Yi−Y¯)
2.3样本协方差矩阵
同样地,我们可以定义数理统计中的协方差矩阵概念,但这里的协方差矩阵并不是描述两个总体之间相关性,而是用来描述样本各维度之间的相关性。
比如我们有一个
m
维的总体
记
bij=Cov(Xi,Xj)=1n−1∑nk=1(X(k)i−Xi¯(k))(X(k)j−Xj¯(k))
则矩阵
B=⎡⎣⎢⎢⎢⎢b11b21⋮bn1b12b22⋮bn2⋯⋯⋯b1nb2n⋮bnn⎤⎦⎥⎥⎥⎥
为
X
<script type="math/tex" id="MathJax-Element-102">X</script>的协方差矩阵
注意在计算样本协方差矩阵时,要牢记它是计算同一个样本不同维度之间的协方差,而不是计算不同样本之间的协方差,切记!
参考资料:
1. 武大版《概率论与数理统计》,齐民友主编。
2. 浅谈协方差矩阵