最大互信息系数-MIC
(一)信息熵
不确定性越大,熵越大。 ( 0.5 × 0.5 ) > ( 0.7 × 0.3 ) > ( 1 × 0 ) (0.5 \times 0.5) > (0.7 \times 0.3) > (1 \times 0) (0.5×0.5)>(0.7×0.3)>(1×0)
H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y ∣ x ) \begin{align*} H(X)&=-\sum_{x\in X} p(x)\log{p(x)}\\ H(Y|X)&=\sum_{x\in X}p(x)H(Y|X=x)\\ &=-\sum_{x\in X}p(x)\sum_{y\in Y}p(y|x)\log{p(y|x)}\\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log{p(y|x)} \end{align*} H(X)H(Y∣X)=−x∈X∑p(x)logp(x)=x∈X∑p(x)H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)=−x∈X∑y∈Y∑p(x,y)logp(y∣x)
(二)互信息(Mutual Information)
互信息是变量间相互依赖性的量度。
描述:知道随机变量Y,对随机变量X的不确定性减少的程度。
离散
:
I
(
X
;
Y
)
=
∑
y
∈
Y
∑
x
∈
X
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
连续
:
I
(
X
;
Y
)
=
∫
X
∫
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
d
x
d
y
\begin{align*} &离散:I(X;Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}\\ &连续:I(X;Y)=\int_X\int_{Y}~p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}~dxdy \end{align*}
离散:I(X;Y)=y∈Y∑x∈X∑p(x,y)logp(x)p(y)p(x,y)连续:I(X;Y)=∫X∫Y p(x,y)logp(x)p(y)p(x,y) dxdy
特性:非负 and 对称。
(三)最大互信息系数(Max Information Coefficient)
MIC用来衡量两个特征变量之间的关联程度,相较于MI互信息而言有更高的准确度。
- 公式:
m i c ( X ; Y ) = max a ∗ b < B I ( X ; Y ) log min ( a , b ) mic(X;Y)=\max_{a*b<B}{\frac{I(X;Y)}{\log{\min(a,b)}}} mic(X;Y)=a∗b<Bmaxlogmin(a,b)I(X;Y)
-
思想:
-
网格划分二维散点图,以各方格点落入概率拟合联合分布 p ( x , y ) p(x,y) p(x,y) ,从而解决互信息中的联合概率难求的问题。
-
即我们的任务,是寻找使得互信息计算值大,且最好拟合 ( X ; Y ) (X;Y) (X;Y)分布的网格划分,即系数。
-
log min ( a , b ) \log\min(a,b) logmin(a,b) 是标准化尺度,消除网格划分形式不同带来的关联性度量干扰。我的理解大概就是下图这样,一般划分成图2就可以很好拟合分布了,划分成图3这样每个点一个格就有点没必要了。
-
(该的图3可能还不是很明显,大家可以想象一下有无数点,你把他每个点独成一格,当然最接近真实分布但没必要,也捕获不到想要的分布关联信息)
- 补充:有一种说法是,MIC比较适合于数据充足的大数据任务。其实感觉也很好理解,样本散点图其实也是对于真实世界分布的一种拟合,点越多包含的分布信息就更精确。可以思考用 ( 1 , 10 , 1000 , 100000 , . . . ) (1, 10, 1000, 100000, ...) (1,10,1000,100000,...)个点来表示 sin x \sin{x} sinx函数。