第三节主要以理论推导为主,主要是为了推导出最大条件似然问题可以近似为最小化条件互信的问题:
arg
max
θ
L
(
θ
,
D
)
=
arg
min
θ
I
(
X
θ
~
;
Y
∣
X
θ
)
\arg\max_{\theta}\mathcal{L}(\theta,\mathcal{D})=\arg\min_\theta I(X_{\tilde\theta};Y|X_\theta)
argθmaxL(θ,D)=argθminI(Xθ~;Y∣Xθ)
3 一个新方法
在接下来的部分我们将特征选择问题当作条件似然问题来进行解决。我们找到已经完备的统计学框架与目前基于互信息的启发式特征选择算法的精确关系。
3.1 条件似然问题
我们假设一个独立同分布的过程
p
:
X
→
Y
p: X\rightarrow Y
p:X→Y,有N个观测值。每次观测形成一个( x, y)由一个d维的特征向量x=[
x
1
,
.
.
.
,
x
d
x_1,...,x_d
x1,...,xd]和一个目标分类y组成,其来源于随机变量
X
=
{
X
1
,
.
.
.
,
X
d
}
X=\{X_1,...,X_d\}
X={X1,...,Xd}和
Y
Y
Y。更进一步,我们假设
p
(
y
∣
x
)
p(y|\bf x)
p(y∣x)被
x
\bf x
x特征的一个子集确定,其他特征是不相关的。我们建模的过程分为两部分:第一步是识别出起作用的特征,第二步是用这些特征来预测结果。在这篇文章当中,我们将精力放在第一个步骤,选择相关的特征。
我们采用一个d维的二值向量
θ
\theta
θ:其中1代表特征被选择,0代表特征被舍弃。
x
θ
x_\theta
xθ表示被选择的特征的向量,完整的向量x可以投射到
θ
\theta
θ维空间。
x
θ
~
x_{\tilde{\theta }}
xθ~表示补集,即没有被选择的特征。特征的全集向量可以表示为
x
=
{
x
θ
,
x
θ
~
}
\boldsymbol{x=\{x_{\theta},x_{\tilde{\theta}}\}}
x={xθ,xθ~}。如上所示,我们假设过程p由特征的子集定义,因此对于未知的最优向量
θ
∗
\theta^*
θ∗, 我们有
p
(
y
∣
x
)
=
p
(
y
∣
x
∗
)
p(y|\boldsymbol{x})=p(y|\boldsymbol{x^*})
p(y∣x)=p(y∣x∗)。我们用假设的预测模型q近似p,这个近似模型具有两层参数:
θ
\theta
θ代表被选择的特征,
τ
\tau
τ代表用来预测y的参数。我们的目标是通过优化这些参数,找到最小的特征子集,即最大化训练标签的条件似然函数。对于独立同分布数据
D
=
{
(
x
i
,
y
i
)
;
i
=
1...
N
}
\mathcal{D}=\{(\boldsymbol{x^i},y^i); i=1...N\}
D={(xi,yi);i=1...N}对于给定参数
{
θ
,
τ
}
\{\theta,\tau\}
{θ,τ}的条件似然函数为:
L
(
θ
,
τ
∣
D
)
=
∏
i
=
1
N
q
(
y
i
∣
x
θ
i
,
τ
)
\mathcal{L}(\theta,\tau|\mathcal{D})=\prod_{i=1}^{N}q(y^i|\boldsymbol{x_\theta^i,\tau})
L(θ,τ∣D)=i=1∏Nq(yi∣xθi,τ)
则基于log的条件似然函数为:
l
=
1
N
∑
i
=
1
N
log
q
(
y
i
∣
x
θ
i
,
τ
)
)
\mathcal{l}=\frac{1}{N}\sum_{i=1}^{N}\log q(y^i|\boldsymbol{x_\theta^i,\tau}))
l=N1i=1∑Nlogq(yi∣xθi,τ))
这是一个我们希望通过优化参数KaTeX parse error: Undefined control sequence: \taxu at position 10: \{\theta,\̲t̲a̲x̲u̲\}的误差函数,the scaling term 对于最优解没有影响,简化模型在文章后续进行展示。条件互信息在所谓的判别模型中广泛使用,然而我们只关系分类的效果,例如Grossman and Domingos (2004)使用条件似然来学习贝叶斯分类网络。我们将会在第9.3节对于条件似然与识别模型的联系进行展开。将条件似然函数最大化就是最小化真实值与预测分类的后验概率之间的KL距离,对于分类问题,我们通常只关心正确的分类,并不关心后验概率的准确度,因此上式对于分类的准确度是proxy 下界。
我们引入
p
(
y
∣
x
θ
)
p(y|\boldsymbol{x_{\theta}})
p(y∣xθ):此为选择的特征
x
θ
\boldsymbol{x_{\theta}}
xθ与分类之间的真实分布。注意要区分与
p
(
y
∣
x
)
p(y|\boldsymbol{x})
p(y∣x), 此为所有特征与分类之间的真实分布。将q乘以
p
(
y
∣
x
θ
)
p(y|\boldsymbol{x_{\theta}})
p(y∣xθ)再除以
p
(
y
∣
x
θ
)
p(y|\boldsymbol{x_{\theta}})
p(y∣xθ),我们可以将上述公式改写为:
l
=
1
N
∑
i
=
1
N
log
q
(
y
i
∣
x
θ
i
,
τ
)
p
(
y
i
∣
x
θ
i
)
+
1
N
∑
i
=
1
N
log
p
(
y
i
∣
x
θ
i
)
(3)
\mathcal{l}=\frac{1}{N}\sum_{i=1}^{N}\log \frac{q(y^i|\boldsymbol{x_\theta^i,\tau})}{p(y^i|\boldsymbol{x_\theta^i})}+\frac{1}{N}\sum_{i=1}^N\log p(y^i|\boldsymbol{x_\theta^i})\tag{3}
l=N1i=1∑Nlogp(yi∣xθi)q(yi∣xθi,τ)+N1i=1∑Nlogp(yi∣xθi)(3)
公式3中的第2项可以通过引入
p
(
y
∣
x
)
p(y|\boldsymbol{x})
p(y∣x)扩展为:
l
=
1
N
∑
i
=
1
N
log
q
(
y
i
∣
x
θ
i
,
τ
)
p
(
y
i
∣
x
θ
i
)
+
1
N
∑
i
=
1
N
log
p
(
y
i
∣
x
y
x
θ
i
)
p
(
y
i
∣
x
i
)
+
1
N
∑
i
=
1
N
log
p
(
y
i
∣
x
i
)
\begin{aligned} \mathcal{l}= &\frac{1}{N}\sum_{i=1}^{N}\log \frac{q(y^i|\boldsymbol{x_\theta^i,\tau})}{p(y^i|\boldsymbol{x_\theta^i})}+\\ &\frac{1}{N}\sum_{i=1}^N\log \frac{p(y^i|xy\boldsymbol{x_\theta^i})}{p(y^i|\boldsymbol{x^i})}+\\ &\frac{1}{N}\sum_{i=1}^N\log p(y^i|\boldsymbol{x^i}) \end{aligned}
l=N1i=1∑Nlogp(yi∣xθi)q(yi∣xθi,τ)+N1i=1∑Nlogp(yi∣xi)p(yi∣xyxθi)+N1i=1∑Nlogp(yi∣xi)
这些是有限采样的近似,在独立同分布的联合分布
p
(
x
y
)
p(\boldsymbol{x} y)
p(xy)。我们应用统计学期望的公式
E
x
y
(
⋅
)
E_{\boldsymbol{x}y}(·)
Exy(⋅),为了方便起见我们将上式取负,将最大化问题转换为最小化问题进行处理。
−
l
=
E
x
y
(
log
p
(
y
∣
x
θ
)
q
(
y
∣
x
θ
,
τ
)
)
+
E
x
y
(
log
p
(
y
∣
x
)
p
(
y
∣
x
θ
)
)
−
E
x
y
(
log
p
(
y
∣
x
)
)
(4)
-\mathcal{l}=E_{\boldsymbol{x}y}(\log \frac{p(y|\boldsymbol{x}_\theta)}{q(y|\boldsymbol{x}_\theta,\tau)})+E_{\boldsymbol{x}y}(\log\frac{p(y|\boldsymbol{x})}{p(y|\boldsymbol{x}_\theta)})-E_{\boldsymbol{x}y}(\log p(y|\boldsymbol{x}))\tag{4}
−l=Exy(logq(y∣xθ,τ)p(y∣xθ))+Exy(logp(y∣xθ)p(y∣x))−Exy(logp(y∣x))(4)
上式中的定义特征选择问题的三项非常有意思。其中第二项正好是Koller-Sahami(1996)提出的特征选择算法的定义。在他们的工作中,这一项采用ad-hoc作为要追踪的目标。我们在这里可以看出在采用条件互信息作为目标函数的方式中这一项是一个直接且自然的结果。另
x
=
{
x
θ
,
x
θ
~
}
\boldsymbol{x=\{x_{\theta},x_{\tilde{\theta}}\}}
x={xθ,xθ~},第二项可以得出:
Δ
K
S
=
E
x
y
{
log
p
(
y
∣
x
)
p
(
y
∣
x
θ
)
}
=
∑
x
y
p
(
x
y
)
log
p
(
y
∣
x
θ
x
θ
~
)
p
(
y
∣
x
θ
)
=
∑
x
y
p
(
x
y
)
log
p
(
y
∣
x
θ
x
θ
~
)
p
(
y
∣
x
θ
)
p
(
x
θ
~
∣
x
θ
)
p
(
x
θ
~
∣
x
θ
)
=
∑
x
y
p
(
x
y
)
log
p
(
x
θ
~
y
∣
x
θ
)
p
(
x
θ
~
∣
x
θ
)
p
(
y
∣
x
θ
)
=
I
(
X
θ
~
;
Y
∣
X
θ
)
(5)
\begin{aligned} \Delta_{KS}&=E_{\boldsymbol{x}y}\{\log\frac{p(y|\boldsymbol{x})}{p(y|\boldsymbol{x_\theta})}\}\\ &=\sum_{\boldsymbol{x}y}p(\boldsymbol{x}y)\log\frac{p(y|\boldsymbol{x_\theta x_{\tilde\theta}})}{p(y|\boldsymbol{x_\theta})} \\ &=\sum_{\boldsymbol{x}y}p(\boldsymbol{x}y)\log\frac{p(y|\boldsymbol{x_\theta x_{\tilde\theta}})}{p(y|\boldsymbol{x_\theta})}\frac{p(\boldsymbol{x_{\tilde\theta}|x_\theta})}{p(\boldsymbol{x_{\tilde\theta}|x_\theta})}\\ &=\sum_{\boldsymbol{x}y}p(\boldsymbol{x}y)\log\frac {p(\boldsymbol{x_{\tilde\theta}y|x_\theta})}{p(\boldsymbol{x_{\tilde\theta}|x_\theta})p(y|\boldsymbol{x_\theta})}\\ &=I(X_{\tilde\theta};Y|X_\theta)\tag{5} \end{aligned}
ΔKS=Exy{logp(y∣xθ)p(y∣x)}=xy∑p(xy)logp(y∣xθ)p(y∣xθxθ~)=xy∑p(xy)logp(y∣xθ)p(y∣xθxθ~)p(xθ~∣xθ)p(xθ~∣xθ)=xy∑p(xy)logp(xθ~∣xθ)p(y∣xθ)p(xθ~y∣xθ)=I(Xθ~;Y∣Xθ)(5)
这是在给定已选择的特征的情况下,标签与剩余特征的条件互信息。我们仍旧可以在看出在公式4中的第三项,是信息论的另外一个量H(Y|X)。总结起来,我们可以得到目标函数包含三个独立的项,每个有不同的解释:
lim
N
→
∞
−
l
=
E
x
y
(
log
p
(
y
∣
x
θ
)
q
(
y
∣
x
θ
,
τ
)
)
+
I
(
X
θ
~
;
Y
∣
X
θ
)
+
H
(
Y
∣
X
)
(6)
\begin{aligned} \lim_{N\rightarrow\infty}-\mathcal{l}=E_{\boldsymbol{x}y}(\log \frac{p(y|\boldsymbol{x}_\theta)}{q(y|\boldsymbol{x}_\theta,\tau)})+I(X_{\tilde\theta};Y|X_\theta)+H(Y|X)\tag 6 \end{aligned}
N→∞lim−l=Exy(logq(y∣xθ,τ)p(y∣xθ))+I(Xθ~;Y∣Xθ)+H(Y∣X)(6)
第一项是在给定已选择的特征的情况下,实际的分布与预测分布的似然比,然后在输入空间进行平均。这一项的大小取决于在已选择的特征下模型q能够近似p的程度。当
θ
\theta
θ达到
θ
∗
\theta^*
θ∗(或者包含
θ
∗
\theta^*
θ∗的超集),问题变成了KL-距离
p
∣
∣
q
p||q
p∣∣q。第二项
I
(
X
θ
~
;
Y
∣
X
θ
)
I(X_{\tilde\theta};Y|X_\theta)
I(Xθ~;Y∣Xθ)是在给定的已选择的特征情况下,分类标签与未选择特征之间的互信息值。这一项的大小仅依赖于特征的选择,当选择的特征
X
θ
X_\theta
Xθ更好的表达Y则这个值会变小,当
X
θ
~
X_{\tilde\theta}
Xθ~中没有关于Y的信息时这个值最终变为0。由链式法则我们可以得到:
I
(
X
;
Y
)
=
I
(
X
θ
;
Y
)
+
I
(
X
θ
~
;
Y
∣
X
θ
)
I(X;Y)=I(X_\theta;Y)+I(X_{\tilde\theta};Y|X_\theta)
I(X;Y)=I(Xθ;Y)+I(Xθ~;Y∣Xθ)
图形解释如下所示:
因此最小化
I
(
X
θ
~
;
Y
∣
X
θ
)
I(X_{\tilde\theta};Y|X_\theta)
I(Xθ~;Y∣Xθ)等价于最大化
I
(
X
θ
;
Y
)
I(X_\theta;Y)
I(Xθ;Y)。最后一项
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)(图中的5)是给定所有特征之后标签的信息熵。这一项的意思是我们在知道所有的特征之后,标签中仍旧存在的不确定性。这是一个不可约的常数项,独立于所有的参数,实际上形成了一个贝叶斯误差的届。
这三项使得特征选择的参数
θ
\theta
θ变得更加明确,排除了参数
τ
\tau
τ的影响。如果我们取得了最优的参数子集
θ
∗
\theta^*
θ∗,可以完美的预测过程p,那么
I
(
X
θ
~
;
Y
∣
X
θ
)
=
0
I(X_{\tilde\theta};Y|X_\theta)=0
I(Xθ~;Y∣Xθ)=0,剩余的误差只剩下
p
∣
∣
q
p||q
p∣∣q的KL距离,用来表达预测模型q利用已选择的特征逼近实际模型p的程度。当然不同的预测模型q会有不同的预测能力:如果预测模型太简单不能表达给定的函数,即使一个优秀的特征子集也无法得到充分的利用。这个观点同样被Tsamardinos and Aliferis(2003)和更早的Kohavi and John(1997)提出。以上结果把条件似然函数用来预测精确的目标函数。本文的其他部分,我们会用到相同的假设使得滤波特征选择方法变得明确。
为了完整性,这里我们做以下假设:
定义1:滤波假设
对于一个分类器给定的目标函数,我们可以通过优化特征子集和优化分类器来个步骤来定位问题:首先挑选优秀的特征,然后建立分类器并使用已挑选特征。
这表明式6中的第二项能够独立于第一项,独立进行优化。在这部分,我们将特征选择问题阐释为特征选择问题。后面我们考虑这个问题的和已经发表文献的相关性,讨论如何在实际中解决这些问题:包括如何优化特征选择参数,如何预测必要的概率分布等。
3.2 优化特征选择参数
在定义1的滤波假设下,公式6显示条件似然的优化于条件互信息一致:
arg
max
θ
L
(
θ
∣
D
)
=
arg
max
θ
I
(
X
θ
~
;
Y
∣
X
θ
)
\arg \max _\theta \mathcal{L}(\theta|\mathcal{D})=\arg \max _\theta I(X_{\tilde{\theta}};Y|X_\theta)
argθmaxL(θ∣D)=argθmaxI(Xθ~;Y∣Xθ)
当然,除了选择特征的最小之外,可能存在多个全局最优。考虑到此,我们引入一个特征子集大小的最小约束,并且定义我们的问题:
θ
∗
=
arg
min
θ
′
{
∣
θ
′
∣
:
θ
′
=
arg
min
θ
I
(
X
θ
~
;
Y
∣
X
θ
)
}
(8)
\theta^*=\arg\min_{\theta'}\{|\theta'|:\theta'=\arg\min_\theta I(X_{\tilde{\theta}};Y|X_\theta)\}\tag{8}
θ∗=argθ′min{∣θ′∣:θ′=argθminI(Xθ~;Y∣Xθ)}(8)
这是最小的特征子集
X
θ
X_\theta
Xθ,使得互信息
I
(
X
θ
~
;
Y
∣
X
θ
)
I(X_{\tilde{\theta}};Y|X_\theta)
I(Xθ~;Y∣Xθ)最小,因此条件似然达到最大。我们仍该知道似然仅仅是我们分类误差的代表,分类的最小特征子集应该比似然最优的子集小。在接下来的篇幅,我们将考虑在已有的文献中,这个问题被处理的。
一个通用的启发式方法是一个接一个的增加或减少的顺序搜索;这种方法在例如IAMB的马尔可夫毯的学习方法中得到了应用。现在我们展示顺序搜索步骤实际上和贪婪迭代优化公式8是等价的。为了理解这个,我们需要一个带时间标签的特征子集。符号
X
θ
t
/
X
θ
t
~
X_{\theta^t}/X_{\tilde{\theta^t}}
Xθt/Xθt~表示在时间t已选择和未选择的特征子集,
定义2:基于互信息的前向选择步骤
前向选择步骤将当前选择的最大互信息加入到当前已选择的子集
X
θ
t
X_{\theta^t}
Xθt中,操作步骤如下:
X
k
=
arg
max
X
k
∈
X
θ
t
~
I
(
X
θ
~
;
Y
∣
X
θ
)
X
θ
t
+
1
←
X
θ
t
∪
X
k
X
θ
t
+
1
~
←
X
θ
t
\
X
k
X_k=\arg\max_{X_k\in X_{\tilde{\theta^t}}}I(X_{\tilde{\theta}};Y|X_\theta) \\ X_{\theta^{t+1}}\leftarrow X_{\theta^t}\cup X_k\\ X_{\tilde{\theta^{t+1}}}\leftarrow X_{\theta^t} \backslash X_k
Xk=argXk∈Xθt~maxI(Xθ~;Y∣Xθ)Xθt+1←Xθt∪XkXθt+1~←Xθt\Xk
一个小但是重要的补充是,对于启发式选择方法,当
∀
X
k
,
I
(
X
k
;
Y
∣
X
θ
)
=
0
\forall X_k, I(X_k;Y|X_\theta)=0
∀Xk,I(Xk;Y∣Xθ)=0时,此特征不应该加入选择特征子集。用来确保不必要的增加特征子集的大小。
定理3:基于互信息的前向选择增加能够最大概率增加条件似然的特征–贪婪迭代最大化
证明:基于上面的定义和互信息的链式法则,我们有:
I
(
X
θ
~
t
+
1
;
Y
∣
X
θ
t
+
1
)
=
I
(
X
θ
~
t
;
Y
∣
X
θ
t
)
−
I
(
X
k
;
Y
∣
X
θ
t
)
I(X_{\tilde{\theta}^{t+1}};Y|X_{\theta^{t+1}})=I(X_{\tilde{\theta}^t};Y|X_{\theta^t})-I(X_k;Y|X_{\theta^t})
I(Xθ~t+1;Y∣Xθt+1)=I(Xθ~t;Y∣Xθt)−I(Xk;Y∣Xθt)
特征
X
k
X_k
Xk最大化
I
(
X
k
;
Y
∣
X
θ
t
)
I(X_k;Y|X_{\theta^t})
I(Xk;Y∣Xθt)等价于最小化
I
(
X
θ
~
t
+
1
;
Y
∣
X
θ
t
+
1
)
I(X_{\tilde{\theta}^{t+1}};Y|X_{\theta^{t+1}})
I(Xθ~t+1;Y∣Xθt+1);因此前向贪婪最小化目标函数
I
(
X
θ
~
t
;
Y
∣
X
θ
t
)
I(X_{\tilde{\theta}^t};Y|X_{\theta^t})
I(Xθ~t;Y∣Xθt),进而达到最大化条件似然。
定义4:基于互信息的后向提出方法
在后向选择中,特征被移除。考虑特征
X
k
X_k
Xk和目标之间的互信息,在已选择的特征中,除去特征
X
k
X_k
Xk,其实现步骤如下:
X
k
=
arg
min
X
k
∈
X
θ
t
I
(
X
k
;
Y
∣
{
X
θ
t
\
X
k
}
)
X
θ
t
+
1
←
X
θ
t
\
X
k
X
θ
~
t
+
1
←
X
θ
~
t
∪
X
k
X_k=\arg\min_{X_k\in X_{\theta}^t}I(X_k;Y|\{X_{\theta^t}\backslash X_k\})\\ X_{\theta^{t+1}}\leftarrow X_{\theta^t}\backslash X_k \\ X_{\tilde{\theta}^{t+1}}\leftarrow X_{\tilde{\theta}^t}\cup X_k
Xk=argXk∈XθtminI(Xk;Y∣{Xθt\Xk})Xθt+1←Xθt\XkXθ~t+1←Xθ~t∪Xk
定理5:后向提出互信息步骤移除能够减小条件似然的最小特征。
证明:基于以上定义和互信息的链式法则,我们可以得到:
I
(
X
θ
~
t
+
1
;
Y
∣
X
θ
t
+
1
)
=
I
(
X
θ
~
t
;
Y
∣
X
θ
t
)
+
I
(
X
k
;
Y
∣
X
θ
t
)
I(X_{\tilde{\theta}^{t+1}};Y|X_{\theta^{t+1}})=I(X_{\tilde{\theta}^t};Y|X_{\theta^t})+I(X_k;Y|X_{\theta^t})
I(Xθ~t+1;Y∣Xθt+1)=I(Xθ~t;Y∣Xθt)+I(Xk;Y∣Xθt)
特征
X
k
X_k
Xk最小化
I
(
X
k
;
Y
∣
X
θ
t
)
I(X_k;Y|X_{\theta^t})
I(Xk;Y∣Xθt)保证
I
(
X
θ
~
t
+
1
;
Y
∣
X
θ
t
+
1
)
I(X_{\tilde{\theta}^{t+1}};Y|X_{\theta^{t+1}})
I(Xθ~t+1;Y∣Xθt+1)和
I
(
X
θ
~
t
;
Y
∣
X
θ
t
)
I(X_{\tilde{\theta}^t};Y|X_{\theta^t})
I(Xθ~t;Y∣Xθt)尽可能相等;因此后项删除方式,将试图获得似然的特征删除掉。
更严格的获得我们的优化目标,后向删除方法仅仅移除
I
(
X
k
;
Y
∣
X
θ
t
\
X
k
)
=
0
I(X_k;Y|{X_{\theta^t}\backslash X_k})=0
I(Xk;Y∣Xθt\Xk)=0的特征。实际情况是,在处理真实数据时,可能会存在估算误差,因此绝对等于0很难达到。这为我们带来了一个非常有趣的推论,IAMB.
推论6:后续处理
3.3 互信息项估计
考虑到前向和后向启发式搜索方法,我们必须把我们并没有关于互信息的完备知识考虑在内。这是因为我们假设我们知道
p
(
x
y
)
p(\boldsymbol{x}y)
p(xy),
p
(
y
∣
x
θ
)
p(y|\boldsymbol{x_\theta})
p(y∣xθ)的真实分布。实际情况中我们必须在数据当中预测这些分布。计算互信息的问题简称为信息熵估计,是统计学的基础。互信息定义为一个比例的对数:
I
(
X
;
Y
)
=
E
x
y
{
log
p
(
x
y
)
p
(
x
)
p
(
y
)
}
I(X;Y)=E_{xy}\{\log\frac{p(xy)}{p(x)p(y)}\}
I(X;Y)=Exy{logp(x)p(y)p(xy)}
我们可以预测,因为大数定理保证我们用采样估计
p
^
\hat p
p^逼近期望值。对于N维独立同分布的数据集,观测值为
(
x
i
,
y
i
)
(x^i,y^i)
(xi,yi),
I
(
X
;
Y
)
≈
I
^
(
X
;
Y
)
=
1
N
∑
i
=
1
N
log
p
^
(
x
i
y
i
)
p
^
(
x
i
)
p
(
y
i
)
I(X;Y)\approx \hat I(X;Y)=\frac{1}{N}\sum_{i=1}^{N}\log\frac{\hat p(x^iy^i)}{ \hat p(x^i)p(y^i)}
I(X;Y)≈I^(X;Y)=N1i=1∑Nlogp^(xi)p(yi)p^(xiyi)
为了计算,我们需要估计
p
^
(
x
y
)
\hat p(xy)
p^(xy),
p
^
(
x
)
\hat p(x)
p^(x)和
p
^
(
y
)
\hat p(y)
p^(y)。对于连续和有序数据,信息熵的计算量非常大,需要一个关于分布的假设模型。本文为了简化实验,我们采用离散数据,利用定宽的直方图来估计分布。对于任意特殊事件
p
(
X
=
x
)
p(X=x)
p(X=x)的概率用最大似然来估计,事件
X
=
x
X=x
X=x发生的频率除以事件发生的数量。关于更多的可变信息熵估计的步骤,读者可以参考Paninski(2003)。
我们必须注意以上的近似,仅在N远远大于x和y的维数的基础上。例如,如果
x
,
y
x,y
x,y是二进制,
N
≈
100
N\approx 100
N≈100对于获得可信的估计是可信的;然而,如果
x
,
y
x,y
x,y是多维的,N的值应该是不充分的。我们讨论的顺序选择方法,我们估计
I
(
X
k
;
Y
∣
X
θ
)
I(X_k;Y|X_\theta)
I(Xk;Y∣Xθ):
I
(
X
k
;
Y
∣
X
θ
)
≈
I
^
(
X
k
;
Y
∣
X
θ
)
=
1
N
∑
i
=
1
N
log
p
^
(
x
k
i
y
i
∣
x
θ
i
)
p
^
(
x
k
i
∣
x
θ
i
)
p
^
(
y
i
∣
x
θ
i
)
I(X_k;Y|X_\theta)\approx \hat I(X_k;Y|X_\theta)=\frac{1}{N}\sum_{i=1}^{N}\log\frac{\hat p(x_k^iy^i|x_\theta^i)}{\hat p(x_k^i|x_\theta^i) \hat p(y^i|x_\theta^i)}
I(Xk;Y∣Xθ)≈I^(Xk;Y∣Xθ)=N1i=1∑Nlogp^(xki∣xθi)p^(yi∣xθi)p^(xkiyi∣xθi)
随着变量
X
θ
X_\theta
Xθ维数的增长(例如我们加入更多的特征),概率分布将会变成高维,因此我们的基于互信息的预测变得可信度降低。这反过来导致再增加或提出特征时的判断变得更难决策。基于这个原因,研究人员开发了公式9所示的低维近似。在本文以后的章节中,我们会调研这些近似的统计学假设和实际影响。
本文的后续部分,我们用
I
(
X
;
Y
)
I(X;Y)
I(X;Y)代表理想的互信息,然后在实际数据中,我们利用有限采样估计
I
^
(
X
;
Y
)
\hat I(X;Y)
I^(X;Y)。
3.4 总结
在本章节我们采用基于互信息选择的逆向工程方案,起始于一个定义清晰的条件似然问题,然后。在接下来的部分我们看到大量的益处,通过将现存的特征选择文献套入概率框架。
说明:本文意在将原文的意思表达出来,对于文章的翻译在所难免存在语句不通顺之处,后续本人在再次阅读此文章时在进行修改。