机器学习基础 | 互相关系数和互信息异同探讨

主要阐述互相关系数和互信息的区别和联系,先说结论:

  • 对于高斯分布,两者是等价的,且存在转换公式,当 X X X Y Y Y互相关系数为零时,两者相互独立,且互信息为零;当互相关系数为 ± 1 \pm1 ±1时,两者完全相关且互信息为无穷大,转换公式:
    I ( X , Y ) = − 1 2 log ⁡ ( 1 − r 2 ) I(X,Y)=-\frac{1}{2}\log(1-r^2) I(X,Y)=21log(1r2)

  • 一般情形,互相关系数只是反应了两者之间的线性相关关系,而互信息则直接从概率分布角度考虑变量之间的相互独立性,相互独立一定不相关,不相关不一定相互独立

互相关系数

互相关系数是研究变量之间 线性相关 程度的量,定义公式如下:
r ( X , Y ) = C o v ( X , Y ) V a r [ X ] V a r [ Y ] r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} r(X,Y)=Var[X]Var[Y] Cov(X,Y)
其中: C o v ( X , Y ) Cov(X,Y) Cov(X,Y) X X X Y Y Y之间的协方差, V a r [ X ] Var[X] Var[X] X X X的方差, V a r [ Y ] Var[Y] Var[Y]为Y的方差。

  • C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E ( Y ) ) ] = E [ X Y ] − E [ X ] E [ Y ] Cov(X,Y)=E[(X-E[X])(Y-E(Y))]=E[XY]-E[X]E[Y] Cov(X,Y)=E[(XE[X])(YE(Y))]=E[XY]E[X]E[Y]
  • V a r [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 Var[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2 Var[X]=E[(XE[X])2]=E[X2]E[X]2

互相关系数的基本性质如下:

  1. ∣ r ( X , Y ) ∣ ≤ 1 |r(X,Y)|\leq 1 r(X,Y)1

  2. r ( X , Y ) > 0 r(X,Y)>0 r(X,Y)>0,则两者之间是正相关;若 r ( X , Y ) < 0 r(X,Y)<0 r(X,Y)<0,则两者之间是负相关

  3. X X X Y Y Y不相关,则 r ( X , Y ) = 0 r(X,Y)=0 r(X,Y)=0;反过来,若 r ( X , Y ) = 0 r(X,Y)=0 r(X,Y)=0,则 X X X Y Y Y不相关,这里的不相关指的是两者之间不存在线性关系,不能排除其他关系。

  4. X X X Y Y Y相互独立,则 r ( X , Y ) = 0 r(X,Y)=0 r(X,Y)=0;反过来,若 r ( X , Y ) = 0 r(X,Y)=0 r(X,Y)=0,只能表明 X X X Y Y Y不相关,两者之间并不一定相互独立。

注:

  • 相互独立指的是 p ( x , y ) = p ( x ) p ( y ) , ∀ x , y p(x,y)=p(x)p(y), \forall x,y p(x,y)=p(x)p(y),x,y
  • 相互独立一定不相关,不相关不一定相互独立,例如 x = cos ⁡ α , Y = sin ⁡ α x=\cos\alpha,Y=\sin\alpha x=cosα,Y=sinα,两者协方差为零,但是两者不独立。
  • 对于正态分布,不相关和独立是等价的。

互相关系数的另一种表达式:
λ ( X , Y ) = 1 − d e t ( C ( Z ) ) d e t ( C ( X ) ) d e t ( C ( Y ) ) \lambda(X,Y)=\sqrt{1-\frac{det(C(Z))}{det(C(X))det(C(Y))}} λ(X,Y)=1det(C(X))det(C(Y))det(C(Z))
其中: Z = ( X , Y ) , C ( Z ) = E [ ( Z − E [ Z ] ) ⋅ ( Z − E [ Z ] ) T ] Z=(X,Y),C(Z)=E[(Z-E[Z])\cdot(Z-E[Z])^T] Z=(X,Y)C(Z)=E[(ZE[Z])(ZE[Z])T]是高维变量的协方差矩阵,若 X X X Y Y Y都是一维向量,则

  • C ( X ) = V a r [ X ] C(X)=Var[X] C(X)=Var[X] C ( Y ) = V a r [ Y ] C(Y)=Var[Y] C(Y)=Var[Y]
  • d e t ( C ( Z ) ) = V a r [ X ] V a r [ Y ] − C o v ( X , Y ) 2 det(C(Z))=Var[X]Var[Y]-Cov(X,Y)^2 det(C(Z))=Var[X]Var[Y]Cov(X,Y)2

因此: λ ( X , Y ) = ∣ r ( x , y ) ∣ \mathbf{\lambda(X,Y)=|r(x,y)|} λ(X,Y)=r(x,y)

互信息

两个变量的互信息的定义如下:
I ( X , Y ) = ∫ p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) d x d y I(X,Y)=\int p(x,y)\log\frac{p(x,y)}{p(x)p(y)}dxdy I(X,Y)=p(x,y)logp(x)p(y)p(x,y)dxdy
定理: Z = ( X , Y ) Z=(X,Y) Z=(X,Y)服从高斯分布,则
I ( X , Y ) = − 1 2 log ⁡ ( d e t ( C ( Z ) ) d e t ( C ( X ) d e t ( C ( Y ) ) ) ) I(X,Y)=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) I(X,Y)=21log(det(C(X)det(C(Y)))det(C(Z)))
证明: 只须证明如下两点即可:

  1. I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y)=H(X)+H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)

  2. 多元正态分布的信息熵:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn服从均值为 μ \mu μ,协方差矩阵为 K K K的果园正态分布,则
    H ( X 1 , X 2 , . . . , X n ) = 1 2 log ⁡ [ ( 2 π e ) n d e t ( K ) ] H(X_1,X_2,...,X_n)=\frac{1}{2}\log[(2\pi e)^ndet(K)] H(X1,X2,...,Xn)=21log[(2πe)ndet(K)]

上述两点的证明按照互信息的定义和正态分布的概率密度函数直接推导即可,这里不再重复,感兴趣的读者可以查阅本文的参考文献。根据上述两点,我们有
I ( X , Y ) = 1 2 log ⁡ [ ( 2 π e ) d e t ( C ( X ) ) ] + 1 2 log ⁡ [ ( 2 π e ) d e t ( C ( Y ) ) ] − 1 2 log ⁡ [ ( 2 π e ) 2 d e t ( C ( Z ) ) ] = − 1 2 log ⁡ ( d e t ( C ( Z ) ) d e t ( C ( X ) d e t ( C ( Y ) ) ) ) \begin{aligned} I(X,Y)&=\frac{1}{2}\log[(2\pi e)det(C(X))]+\frac{1}{2}\log[(2\pi e)det(C(Y))]-\frac{1}{2}\log[(2\pi e)^2det(C(Z))]\\ &=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \end{aligned} I(X,Y)=21log[(2πe)det(C(X))]+21log[(2πe)det(C(Y))]21log[(2πe)2det(C(Z))]=21log(det(C(X)det(C(Y)))det(C(Z)))

证毕。

根据上述定理以及 λ ( X , Y ) \lambda(X,Y) λ(X,Y),可以定义一个度量 Λ ( X , Y ) \Lambda(X,Y) Λ(X,Y)
Λ ( X , Y ) = 1 − e 2 I ( X , Y ) \Lambda(X,Y)=\sqrt{1-e^{2I(X,Y)}} Λ(X,Y)=1e2I(X,Y)
注: Λ ( X , Y ) \Lambda(X,Y) Λ(X,Y)具有如下性质:

  1. Λ ( X , Y ) \Lambda(X,Y) Λ(X,Y)是互信息的一种归一化,取值范围从 [ 0 , ∞ ] [0,\infty] [0,]归一化到了 [ 0 , 1 ] [0,1] [0,1],且 Λ ( X , Y ) \Lambda(X,Y) Λ(X,Y)同时包含了变量之间的线性关系和非线性关系
  2. ( X , Y ) (X,Y) (X,Y)服从高斯分布时, Λ ( X , Y ) = λ ( X , Y ) \Lambda(X,Y)=\lambda(X,Y) Λ(X,Y)=λ(X,Y),即其此时和互相关系数等价
  3. 若令 D M I ( X , Y ) = Λ ( X , Y ) − λ ( X , Y ) D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y) DMI(X,Y)=Λ(X,Y)λ(X,Y),则 D M I D_{MI} DMI刻画了变量之间的非线性关系,可用于指示变量之间是否存在非线性关系,分析系统的非线性动力学变化。

两者的关系

根据上面的分析很容易得到两者的关系如下:

  • 对于高斯分布,两者是等价的,且存在转换公式,当 X X X Y Y Y互相关系数为零时,两者相互独立,且互信息为零;当互相关系数为 ± 1 \pm1 ±1时,两者完全相关且互信息为无穷大,转换公式:
    I ( X , Y ) = − 1 2 log ⁡ ( 1 − r 2 ) I(X,Y)=-\frac{1}{2}\log(1-r^2) I(X,Y)=21log(1r2)

  • 一般情形,互相关系数只是反应了两者之间的线性相关关系,而互信息则直接从概率分布角度考虑变量之间的相互独立性,相互独立一定不相关,不相关不一定相互独立

更为重要的是:

  • D M I ( X , Y ) = Λ ( X , Y ) − λ ( X , Y ) D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y) DMI(X,Y)=Λ(X,Y)λ(X,Y) 刻画了变量之间的非线性关系,可用于指示变量之间是否存在非线性关系,分析系统的非线性动力学变化。

参考文献

  • 百度百科-相关系数

  • 协方差为零能得出相互独立吗?

  • Cover T , Thomas J , Wiley J . Elements of information theory[M]. Tsinghua University Pres, 2003.

  • Johnson, J. R.; Wing, S. A Solar Cycle Dependence of Nonlinearity in Magnetospheric Activity: SOLAR CYCLE DEPENDENCE. J. Geophys. Res. 2005, 110 (A4). https://doi.org/10.1029/2004JA010638.

  • Tsonis, A. A. Probing the Linearity and Nonlinearity in the Transitions of the Atmospheric Circulation. Nonlin. Processes Geophys. 2001, 8 (6), 341–345. https://doi.org/10.5194/npg-8-341-2001.

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值