数学知识补充-协方差，协方差矩阵，相关系数，相关系数矩阵

最新推荐文章于 2023-06-09 09:33:53 发布

nicowin

最新推荐文章于 2023-06-09 09:33:53 发布

阅读量857

点赞数 2

分类专栏：数学知识补充文章标签：机器学习概率论

本文链接：https://blog.csdn.net/qq_40992795/article/details/107746643

版权

数学知识补充专栏收录该内容

2 篇文章 0 订阅

订阅专栏

说明：这里只考虑随机变量总体的参数，而不是从统计学的角度考虑样本的统计量

1. 协方差

意义：在概率论和统计中，协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量

越线性相关，协方差越大，两个变量完全线性无关，协方差为零。
协方差的定义如下：
$c o v (X, Y) = E [(X - E (X) * (Y - E (Y))]$ （我这里用“ $*$ ”表示python中的元素分别相乘）
当X,Y是同一个随机变量时，X与其自身的协方差就是X的方差，可以说方差是协方差的一个特例。

对于一维随机变量，我们研究的是这两个随机变量之间的关系
设有两个随机变量 $X, Y$ ，分别有m个样本 $x_1,x_2,...,x_m$ 和 $y_1,y_2,...,y_m$
展开来说就是：
$cov(X,Y)=\frac{\sum_i^n(x_i-\overline{x})(y_i-\overline{y})}{m}$

对于多维向量，我们研究的是某两个维度之间的关系(把每一个维度看成一个随机变量）

2. 协方差矩阵（covariance matrix，C）

协方差矩阵的概念一般是定义在多维随机变量上的，
设n维随机变量

$\begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix}$

取样本矩阵
$\begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix}$

那么其中两个维度的协方差为

$cov(X_i,X_j)=\frac{\sum^m_{k=1}(x_{ik}-\overline{x_{i}})(x_{jk}-\overline{x_{j}})}{m}$
(其中 $X_i, X_j$ 分别代表所有样本的第 i 和第 j 维的元素构成向量。)
设 $c_{ij}=cov(X_i,X_j)$ ，那么有

$C=(c_{ij})_{n \times n}= \begin{bmatrix} c_{11}& c_{12} & \cdots &c_{1n} \\ c_{21}& c_{22} & \cdots &c_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ c_{n1}& c_{n2} & \cdots &c_{nn} \\ \end{bmatrix}$
向量化之后的表达式为：
$C=(x-E(x))(x-E(x))^T$
(说明这里的E(x)是对x按列求均值的结果，如果使用python，可以写成

np.mean(x,axis=1)

）

3.相关系数

意义：由于随机变量的取值范围不同，两个协方差不具备可比性。如X,Y,Z分别是三个随机变量，

想要比较X与Y的线性相关程度强，还是X与Z的线性相关程度强，通过cov(X,Y)与cov(X,Z)

无法直接比较。定义相关系数：
$\rho = \frac{cov(X,Y)}{\sqrt{Var(x)Var(y)}}$

4.相关系数矩阵

设n维随机变量

$\begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix}$

取样本矩阵
$\begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix}$

那么其中两个维度的相关系数为：
$\rho(X_i,X_j)=\frac{Cov(X_i,X_j)}{\sqrt{Var(X_i)Var(X_j)}}$
(其中 $X_i, X_j$ 分别代表所有样本的第 i 和第 j 维的元素构成向量。)
设 $\rho_{ij}=\rho(X_i,X_j)$ ，那么有

$\rho=(\rho_{ij})_{m \times m}= \begin{bmatrix} \rho_{11}& \rho_{12} & \cdots &\rho_{1n} \\ \rho_{21}& \rho_{22} & \cdots &\rho_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ \rho_{n1}& \rho_{n2} & \cdots &\rho_{nn} \\ \end{bmatrix}$

nicowin

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数学知识补充-协方差，协方差矩阵，相关系数，相关系数矩阵

说明：这里只考虑随机变量总体的参数，而不是从统计学的角度考虑样本的统计量1. 协方差意义：在概率论和统计中，协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，两个变量完全线性无关，协方差为零。协方差的定义如下：cov(X,Y)=E[(X−E(X)∗(Y−E(Y))]cov(X,Y)=E[(X-E(X)*(Y-E(Y))]cov(X,Y)=E[(X−E(X)∗(Y−E(Y))]（我这里用“∗*∗”表示python中的元素分别相乘）当X,Y是同一个随机变量时
复制链接

扫一扫

专栏目录