一、算法思想
1、特征选择
特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征,从而获得特征子集,从而以最小的性能损失更好地描述给出的问题。
特征选择方法可以分为三个系列:过滤式选择、包裹式选择和嵌入式选择的方法 。
本文介绍的互信息(mutual information)即为过滤式的特征选择算法。
关于过滤式的特征算法系列,可参考我的其他文章。
特征选择之卡方检验
特征选择之Fisher Score
2、互信息
互信息介绍
定义:两个随机变量的互信息(mutual information)是变量间相互依赖性的量度。
如何理解相互依赖性的量度?
互信息度量两个随机变量共享的信息——知道随机变量X,对随机变量Y的不确定性减少的程度(或者知道随机变量Y,对随机变量X的不确定性减少的程度),用 I(X;Y)表示。
还是很抽象?举个例子吧。
随机变量X表示一个均衡的六面骰子投掷出的点数,Y表示X的奇偶性。这里我们设X是偶数时,Y=0;X是奇数时,Y=1。
如果我们知道X,如X=1,则可以判断Y=1。(失去Y=0这一信息的可能性,Y的不确定性信息减少了)
同样的,如果我们知道Y=0,则可以判断X=2或4或6。(失去X=1或3或5这一信息的可能性,X的不确定性信息减少了)
因此,我们说随机变量X和Y之间存在互信息。
ok,这里我们还需要理解什么叫做随机变量的不确定性。
因此,我们需要引入熵的概念。
熵的概念起源于物理学,用于度量一个热力学系统的无序程度。在信息论中,熵是对不确定性的测量,用H表示。对于随机变量X:
H
(
X
)
=
−
∑
x
p
(
x
)
log
p
(
x
)
H(X)=-\sum_{x} p(x) \log p(x)
H(X)=−x∑p(x)logp(x)
我们可以通过下面这张互信息的韦恩图来形象的理解互信息和熵的关系与区别:
关于这张图的理解:
可参考这个视频↓
参考视频
最后,我们通过一系列的数学公式的推导,得到以下互信息的定义式:
I
(
X
;
Y
)
=
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
I(X ; Y)=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}
I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)
其中p(x)表示X=
x
i
x_i
xi出现的概率,p(y)表示Y=
y
i
y_i
yi出现的概率。p(x,y)表示X=
x
i
x_i
xi,Y=
y
i
y_i
yi同时出现的概率,即联合概率。
其中log的底数可以为e或者2,若为2的话,互信息的单位就是比特。
特征选择中的互信息
由上文所述, 特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征,从而获得特征子集,从而以最小的性能损失更好地描述给出的问题。
这里我们将样本中的特征可以对应为随机变量X(Y),标签类对应随机变量Y(X)。 这其实是由于互信息具有的一个重要的性质——对称性:
I
(
X
;
Y
)
=
I
(
Y
;
X
)
I(X ; Y) = I(Y ; X)
I(X;Y)=I(Y;X)
我们还是实际举一个例子吧。
假入样本中的某个特征对应列表为X=[0,0,1] ,标签类对应列表为Y=[1,1,0]。
那么我们可以知道p(X=0)= 2 3 \frac{2}{3} 32,p(X=1)= 1 3 \frac{1}{3} 31。同样p(Y=0)= 1 3 \frac{1}{3} 31,p(Y=1)= 2 3 \frac{2}{3} 32。
X与Y一一对应,有(0,1),(0,1),(1,0)三种情况,那么
p(X=0,Y=1)=
2
3
\frac{2}{3}
32 ,p(X=1,Y=0)=
1
3
\frac{1}{3}
31 。
由上面推导的互信息公式:
I
(
X
;
Y
)
=
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
I(X ; Y)=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}
I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)
带入,相应的p(x),p(y),p(x,y)求得值。这里我们取log的底为自然底数e。
那么这个例子中
I
(
X
;
Y
)
=
p
(
x
=
0
,
y
=
1
)
log
p
(
x
=
0
,
y
=
1
)
p
(
x
=
0
)
p
(
y
=
1
)
I(X ; Y)= p(x=0, y=1) \log \frac{p(x=0, y=1)}{p(x=0) p(y=1)}
I(X;Y)=p(x=0,y=1)logp(x=0)p(y=1)p(x=0,y=1) +
p
(
x
=
1
,
y
=
0
)
log
p
(
x
=
1
,
y
=
0
)
p
(
x
=
1
)
p
(
y
=
0
)
p(x=1, y=0) \log \frac{p(x=1, y=0)}{p(x=1) p(y=0)}
p(x=1,y=0)logp(x=1)p(y=0)p(x=1,y=0) =
2
3
\frac{2}{3}
32 * ln(
2
/
3
2
/
3
∗
2
/
3
)
\frac{2/3}{2/3*2/3})
2/3∗2/32/3) +
1
3
\frac{1}{3}
31 * ln(
1
/
3
1
/
3
∗
1
/
3
)
\frac{1/3}{1/3*1/3})
1/3∗1/31/3) ≈ 0.6365
仔细看看其中的计算规则,你就能明白互信息的计算。
其次,在特征选择中,互信息是特征与标签类相互依赖程度的度量。由前面的定义可知,互信息值越大,那么特征与标签类相互的依赖程度越大。即,某个特征和某标签类的互信息越大,说明知道某个特征后,某个标签类的不确定性减少得更多,说明两者“相关性越强”,反之亦然。
简单来说,特征与标签类的互信息越大,特征与标签“相关性越强”,这个特征更有可能属于此类标签。 反之的极端情况是,若两者互信息为0,说明两者独立,几乎没什么关系。
二、代码实现
1、python调用sklearn包
python里面的sklearn包里面有metrics.mutual_info_score()函数。
它的参数为两个列表sample,label。由上文互信息的对称性可知,sample与label是对称的,可互换。且这个函数的log以自然底数e为底。
from sklearn import metrics
label=[0,0,1]
sample=[1,1,0]
print(metrics.mutual_info_score(label,sample))
输出为互信息的值:0.6365141682948129
2、自己实现的代码
话不多说,上代码。
# 针对标签样本都是二值(0和1)的互信息,label和sample是对称的
#eg:label=[0,1,0] sample=[1,0,1]
#return 0.6365141682948128
import numpy as np
import math
def binary_mutula_information(label, sample):
# 用字典来计数
d = dict()
# 统计其中00,01,10,11各自的个数
binary_mi_score = 0.0
label = np.asarray(label)
sample = np.asarray(sample)
if label.size != sample.size:
print('error!input array length is not equal.')
exit()
# np.sum(label)/label.size表示1在label中的概率,
# 前者就是0在label中的概率
# 这里需要用总的数目减去1的数目再除以总的数目,提高精度
x = [(label.size - np.sum(label)) / label.size, np.sum(label) / label.size]
y = [(sample.size - np.sum(sample)) / sample.size, np.sum(sample) / sample.size]
for i in range(label.size):
if (label[i], sample[i]) in d:
d[label[i], sample[i]] += 1
else:
d[label[i], sample[i]] = 1
# 遍历字典,得到各自的px,py,pxy,并求和
for key in d.keys():
px = x[key[0]]
py = y[key[1]]
pxy = d[key] / label.size
binary_mi_score = binary_mi_score + pxy * math.log(pxy / (px * py))
return binary_mi_score
label=[0,0,1]
sample=[1,1,0]
print(binary_mutula_information(label,sample))
输出互信息值:0.6365141682948129
以上代码只是简单的实现了当特征值和标签值为二值0和1的情况,因此输入的参数的值请读者注意。
其实值的大小并不重要,只要能区分是不同的值就行。其实对于sklearn包里面的metrics.mutual_info_score()函数来说,
label=[0,0,1]
sample=[1,1,0]
与
label=[666,666,999]
sample=[999,999,666]
执行
metrics.mutual_info_score(label,sample)
得到的答案是一样的,读者可自行验证。
后续我会再更新出一般的对于n个值都适用的互信息python实现。
希望本文对你有帮助!