数学知识补充-协方差,协方差矩阵,相关系数,相关系数矩阵

说明:这里只考虑随机变量总体的参数,而不是从统计学的角度考虑样本的统计量

1. 协方差

意义:在概率论和统计中,协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量

越线性相关,协方差越大, 两个变量完全线性无关,协方差为零。
协方差的定义如下:
c o v ( X , Y ) = E [ ( X − E ( X ) ∗ ( Y − E ( Y ) ) ] cov(X,Y)=E[(X-E(X)*(Y-E(Y))] cov(X,Y)=E[(XE(X)(YE(Y))](我这里用“ ∗ * ”表示python中的元素分别相乘)
当X,Y是同一个随机变量时,X与其自身的协方差就是X的方差,可以说方差是协方差的一个特例。

对于一维随机变量,我们研究的是这两个随机变量之间的关系
设有两个随机变量 X , Y X,Y X,Y,分别有m个样本 x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1,x2,...,xm y 1 , y 2 , . . . , y m y_1,y_2,...,y_m y1,y2,...,ym
展开来说就是:
c o v ( X , Y ) = ∑ i n ( x i − x ‾ ) ( y i − y ‾ ) m cov(X,Y)=\frac{\sum_i^n(x_i-\overline{x})(y_i-\overline{y})}{m} cov(X,Y)=min(xix)(yiy)

对于多维向量,我们研究的是某两个维度之间的关系(把每一个维度看成一个随机变量)

2. 协方差矩阵(covariance matrix,C)

协方差矩阵的概念一般是定义在多维随机变量上的,
设n维随机变量

X = [ X 1 X 2 ⋮ X n ] X= \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix} X=X1X2Xn

取样本矩阵
x = [ x 11 x 12 ⋯ x 1 m x 21 x 22 ⋯ x 2 m ⋮ ⋮ ⋱ ⋮ x n 1 x n 2 ⋯ x n m ] x= \begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix} x=x11x21xn1x12x22xn2x1mx2mxnm

那么其中两个维度的协方差为

c o v ( X i , X j ) = ∑ k = 1 m ( x i k − x i ‾ ) ( x j k − x j ‾ ) m cov(X_i,X_j)=\frac{\sum^m_{k=1}(x_{ik}-\overline{x_{i}})(x_{jk}-\overline{x_{j}})}{m} cov(Xi,Xj)=mk=1m(xikxi)(xjkxj)
(其中 X i , X j X_i, X_j Xi,Xj分别代表所有样本的第 i 和第 j 维的元素构成向量。)
c i j = c o v ( X i , X j ) c_{ij}=cov(X_i,X_j) cij=cov(Xi,Xj),那么有

C = ( c i j ) n × n = [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋮ ⋮ ⋱ ⋮ c n 1 c n 2 ⋯ c n n ] C=(c_{ij})_{n \times n}= \begin{bmatrix} c_{11}& c_{12} & \cdots &c_{1n} \\ c_{21}& c_{22} & \cdots &c_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ c_{n1}& c_{n2} & \cdots &c_{nn} \\ \end{bmatrix} C=(cij)n×n=c11c21cn1c12c22cn2c1nc2ncnn
向量化之后的表达式为:
C = ( x − E ( x ) ) ( x − E ( x ) ) T C=(x-E(x))(x-E(x))^T C=(xE(x))(xE(x))T
(说明这里的E(x)是对x按列求均值的结果,如果使用python,可以写成

np.mean(x,axis=1)

3.相关系数

意义:由于随机变量的取值范围不同,两个协方差不具备可比性。如X,Y,Z分别是三个随机变量,

想要比较X与Y的线性相关程度强,还是X与Z的线性相关程度强,通过cov(X,Y)与cov(X,Z)

无法直接比较。定义相关系数:
ρ = c o v ( X , Y ) V a r ( x ) V a r ( y ) \rho = \frac{cov(X,Y)}{\sqrt{Var(x)Var(y)}} ρ=Var(x)Var(y) cov(X,Y)

4.相关系数矩阵

设n维随机变量

X = [ X 1 X 2 ⋮ X n ] X= \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix} X=X1X2Xn

取样本矩阵
x = [ x 11 x 12 ⋯ x 1 m x 21 x 22 ⋯ x 2 m ⋮ ⋮ ⋱ ⋮ x n 1 x n 2 ⋯ x n m ] x= \begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix} x=x11x21xn1x12x22xn2x1mx2mxnm

那么其中两个维度的相关系数为:
ρ ( X i , X j ) = C o v ( X i , X j ) V a r ( X i ) V a r ( X j ) \rho(X_i,X_j)=\frac{Cov(X_i,X_j)}{\sqrt{Var(X_i)Var(X_j)}} ρ(Xi,Xj)=Var(Xi)Var(Xj) Cov(Xi,Xj)
(其中 X i , X j X_i, X_j Xi,Xj分别代表所有样本的第 i 和第 j 维的元素构成向量。)
ρ i j = ρ ( X i , X j ) \rho_{ij}=\rho(X_i,X_j) ρij=ρ(Xi,Xj),那么有

ρ = ( ρ i j ) m × m = [ ρ 11 ρ 12 ⋯ ρ 1 n ρ 21 ρ 22 ⋯ ρ 2 n ⋮ ⋮ ⋱ ⋮ ρ n 1 ρ n 2 ⋯ ρ n n ] \rho=(\rho_{ij})_{m \times m}= \begin{bmatrix} \rho_{11}& \rho_{12} & \cdots &\rho_{1n} \\ \rho_{21}& \rho_{22} & \cdots &\rho_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ \rho_{n1}& \rho_{n2} & \cdots &\rho_{nn} \\ \end{bmatrix} ρ=(ρij)m×m=ρ11ρ21ρn1ρ12ρ22ρn2ρ1nρ2nρnn

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值