最大互信息系数-MIC

最大互信息系数-MIC

(一)信息熵

           不确定性越大,熵越大。 ( 0.5 × 0.5 ) > ( 0.7 × 0.3 ) > ( 1 × 0 ) (0.5 \times 0.5) > (0.7 \times 0.3) > (1 \times 0) (0.5×0.5)>(0.7×0.3)>(1×0)

H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log ⁡ p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y ∣ x ) \begin{align*} H(X)&=-\sum_{x\in X} p(x)\log{p(x)}\\ H(Y|X)&=\sum_{x\in X}p(x)H(Y|X=x)\\ &=-\sum_{x\in X}p(x)\sum_{y\in Y}p(y|x)\log{p(y|x)}\\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log{p(y|x)} \end{align*} H(X)H(YX)=xXp(x)logp(x)=xXp(x)H(YX=x)=xXp(x)yYp(yx)logp(yx)=xXyYp(x,y)logp(yx)

           

(二)互信息(Mutual Information)

           互信息是变量间相互依赖性的量度。
网格图


           描述:知道随机变量Y,对随机变量X的不确定性减少的程度。
离散 : I ( X ; Y ) = ∑ y ∈ Y ∑ x ∈ X p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) 连续 : I ( X ; Y ) = ∫ X ∫ Y   p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y )   d x d y \begin{align*} &离散:I(X;Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}\\ &连续:I(X;Y)=\int_X\int_{Y}~p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}~dxdy \end{align*} 离散:I(X;Y)=yYxXp(x,y)logp(x)p(y)p(x,y)连续:I(X;Y)=XY p(x,y)logp(x)p(y)p(x,y) dxdy
           特性:非负 and 对称。

           

(三)最大互信息系数(Max Information Coefficient)

           
           MIC用来衡量两个特征变量之间的关联程度,相较于MI互信息而言有更高的准确度。

  • 公式:

m i c ( X ; Y ) = max ⁡ a ∗ b < B I ( X ; Y ) log ⁡ min ⁡ ( a , b ) mic(X;Y)=\max_{a*b<B}{\frac{I(X;Y)}{\log{\min(a,b)}}} mic(X;Y)=ab<Bmaxlogmin(a,b)I(X;Y)

  • 思想:

    • 网格划分二维散点图,以各方格点落入概率拟合联合分布 p ( x , y ) p(x,y) p(x,y) ,从而解决互信息中的联合概率难求的问题。

    • 即我们的任务,是寻找使得互信息计算值大,且最好拟合 ( X ; Y ) (X;Y) (X;Y)分布的网格划分,即系数。

    • log ⁡ min ⁡ ( a , b ) \log\min(a,b) logmin(a,b) 是标准化尺度,消除网格划分形式不同带来的关联性度量干扰。我的理解大概就是下图这样,一般划分成图2就可以很好拟合分布了,划分成图3这样每个点一个格就有点没必要了。

网格图

(该的图3可能还不是很明显,大家可以想象一下有无数点,你把他每个点独成一格,当然最接近真实分布但没必要,也捕获不到想要的分布关联信息)

  • 补充:有一种说法是,MIC比较适合于数据充足的大数据任务。其实感觉也很好理解,样本散点图其实也是对于真实世界分布的一种拟合,点越多包含的分布信息就更精确。可以思考用 ( 1 , 10 , 1000 , 100000 , . . . ) (1, 10, 1000, 100000, ...) (1,10,1000,100000,...)个点来表示 sin ⁡ x \sin{x} sinx函数。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值