前言:第一次详细研究和翻译论文,翻译多有望文生义之嫌,排版比较凌乱,截至2020年12月6日完成了初步的研究工作,文章的主体大致分析完毕,接下来会持续更新,摘录实验部分的重点,做一些修正工作。后续可能会再发一篇博文,从普及的角度,简单易懂地介绍邻域熵和邻互信息的概念。
原题:Measuring relevance between discrete and continuous features based on neighborhood mutual information.
作者:Qinghua Hu, Lei Zhang, David Zhang, Wei Pan, Shuang An, Witold Pedryc.
论文结构如下:
第1节:总体介绍
第2节:介绍香农熵和邻域粗糙集的基本知识
第3节:介绍邻域熵和邻域互信息的定义,并讨论它们的性质和解释
第4节:邻域互信息与特征选择相结合,研究MD, mRMR and mRMD之间的关系。
第5节:描述了实验分析
第6节:给出了结论和今后的工作
关键词:
特征选择
连续型特征
相关性
邻域熵
邻域互信息
摘要:
由于高维空间中概率密度函数的估计问题,用互信息测量数值型特征之间的相关性存在一定的局限性。本论文将香农信息熵推广到了邻域信息熵,并提出了邻域互信息的度量方法。它也证明了邻域互信息是经典互信息的自然扩展,当特征是离散的时候,该测度会退化为经典互信息测度,因而这样的测度也同样适用于离散变量。此外,新度量引入了参数delta来控制数据分析的细粒度(granularity)。与互信息相比有优势的是,在使用该度量时,计算相关性不需要对特征离散化。用该度量与四类评估策略相结合,用于特征选择。在几个基准数据集上对算法测试后表明基于邻域互信息的算法比传统的邻域互信息算法具有更好的性能。
1.介绍:
特征工程中,依赖性指的是如果训练集中样本在某个特征上的取值相同,取值一致的样本有相同决策的比率。模糊依赖将此定义推广到模糊条件。一致性是根据多数决策正确分类的比例。
在评估特征的许多度量方法中,互信息是计算相关性中应用最广泛的度量。互信息定义为:
M I ( A , B ) = ∑ a ∈ A ∑ b ∈ B p ( a , b ) l o g p ( a , b ) p ( a ) p ( b ) MI(A,B)=\sum\limits_{a{\in}A}\sum\limits_{b{\in}B}p(a,b)log{\frac{p(a,b)}{p(a)p(b)}} MI(A,B)=a∈A∑b∈B∑p(a,b)logp(a)p(b)p(a,b)
MI(互信息)是一个反应a和b之间线性或非线性依赖程度的统计量。计算互信息需要知道变量的概率分布(p(a),p(b))和联合分布(p(a,b))。当特征是离散的时候,频率视为概率。当特征是连续的时候,一种方法是Parzen Windows算法估计概率,另一种方法是离散化后将变量划分为多个子集。理论上第一种方案可行,但是高维空间中样本分布稀疏,通常很难对多变量的密度进行准确估计,计算的时间成本也很高。而离散化不适用于回归分析,因为回归分析需要连续变量之间的相关性。在这些情况下,计算连续型特征之间相关性的信息度量就变得很有用了。
《Neighborhood rough set based heterogeneous feature subset selection》中对于离散和连续型变量关于分类一致性的假设不同。对于离散型特征,特征值相同的样本应为同一种决策类。而对于连续型特征,特征值相似的样本属于同一种决策类,因而这些特征值相似的样本视为等价。在此基础上,此篇论文作者将依赖函数从基于等价关系的扩展为基于邻域关系,其中邻域是通过距离计算得到的,邻域视为与质心特征值相似的样本子集。通过检测邻域的纯度,可以判断该邻域子集中的样本是否一致。而邻域依赖只是反映样本是否具有一致性,并不能记录这个样本的一致程度,因而该量度在稳定性和鲁棒性方面不如互信息。
本文将邻域的概念引入香农信息论,提出了一种新的信息测度——邻域熵,再推导出联合邻域熵、邻域条件熵、邻域互信息的概念,用于计算连续变量与离散决策特征之间的相关性,从而直接用互信息来评估和选择连续特征。
本研究集中在三个问题上:
1、引入邻域熵和邻域互信息的新定义。讨论了这些测度的性质。证明邻域熵是香农熵的自然推广。如果使用离散距离,邻域熵将转换为香农熵。
2、讨论如何将该方法应用在特征选择中,给出公理的方法进行特征选择和讨论该方法与其他两种的不同之处。此外,我们在邻域熵的背景下考虑了最大依赖、最大相关性和最小冗余的思想,并讨论了它们的计算复杂性。最后提出三种基于邻域互信息的特征选择策略:最大依赖、最小冗余和最大相关、最小冗余和最大依赖。
3、最后通过综合实验,展示了邻域熵的性质,并将其与现有的一些算法进行了比较,比如模糊聚类,基于一致性的特征选择、基于FCBF和邻域粗糙集的算法。
2.知识准备:
2.1 香农熵和互信息
香农熵是随机变量不确定性的度量,设 A = { a 1 , a 2 , . . . , a n } A=\{a_1, a_2, ..., a_n\} A={a1,a2,...,an}是随机变量,p(ai)是ai发生的概率,则A的熵定义为:
H ( A ) = − ∑ i = 1 n p ( a i ) log p ( a i ) H(A)=-\sum\limits_{i=1}^np(a_i){\log}p(a_i) H(A)=−i=1∑np(ai)logp(ai)
如果A和B是两个随机变量,则它们的联合概率定义为p(ai,bj),其中i=1,…,n,j=1,…,n,则A和B的联合熵表示为:
H ( A , B ) = − ∑ i = 1 n p ( a i ) log p ( a i ) H(A,B)=-\sum\limits_{i=1}^np(a_i){\log}p(a_i) H(A,B)=−i=1∑np(ai)logp(ai)
假设变量B已知,则A的不确定性称为条件熵,由下式计算:
H ( A ∣ B ) = H ( A , B ) − H ( B ) = − ∑ i = 1 n ∑ j = 1 m p ( a i , b j ) log p ( a i ∣ b j ) H(A|B)=H(A,B)-H(B)=-\sum\limits_{i=1}^n\sum\limits_{j=1}^mp(a_i,b_j){\log}p(a_i|b_j) H(A∣B)=H(A,B)−H(B)=−i=1∑nj=1∑mp(ai,bj)logp(ai∣bj)
相应的,B的知识得到的A的不确定性的减少,称为A和B之间的互信息,它定义为:
M I ( A ; B ) = ∑ i = 1 n ∑ j = 1 m p ( a i , b j ) log p ( a i ∣ b j ) p ( a i ) MI(A;B)=\sum\limits_{i=1}^n\sum\limits_{j=1}^mp(a_i,b_j){\log}{\frac{p(a_i|b_j)}{p(a_i)}} MI(A;B)=i=1∑nj=1∑mp(ai,bj)logp(ai)p(ai∣bj)
可有以下变形:
p ( a i ∣ b j ) p ( a i ) = p ( b j ∣ a i ) p ( b j ) = p ( a i , b j ) p ( a i ) p ( b j ) {\frac{p(a_i|b_j)}{p(a_i)}}={\frac{p(b_j|a_i)}{p(b_j)}}={\frac{p(a_i,b_j)}{p(a_i)p(b_j)}} p(ai)p(ai∣bj)=p(bj)p(bj∣ai)=p(ai)p(bj)p(ai,bj)
因而有:
M I ( A ; B ) = M I ( B ; A ) = H ( A ) − H ( A ∣ B ) = H ( B ) − H ( B ∣ A ) = H ( A ) + H ( B ) − H ( A , B ) MI(A;B)=MI(B;A)=H(A)-H(A|B)=H(B)-H(B|A)=H(A)+H(B)-H(A,B) MI(A;B)=MI(B;A)=H(A)−H(A∣B)=H(B)−H(B∣A)=H(A)+H(B)−H(A,B)
对于连续随机变量:
H ( A ) = − ∫ p ( a ) log p ( a ) d a H(A)=-{\int}p(a){\log}p(a)da H(A)=−∫p(a)logp(a)da
其中p(a)是概率密度函数,在数据驱动的学习中,变量的概率分布通常是未知先验的,我们必须利用现有的样本来估计它们。
2.2 邻域粗糙集
粗糙集的理论(详细的自行百度)是:给定一个离散数据集,在一个特征下值相同的样本被划分为一个集合。但是当特征连续时,寻找等价的集合是不可行的,因为样本具有同样数值的概率非常小。在这种情况下,特征值相似的样本应该归为一类。在此基础上,就提出了邻域粗糙集。
给定一组样本
U
=
{
x
1
,
x
2
,
.
.
.
,
x
n
}
,
x
i
∈
R
N
U=\{x_1,x_2,...,x_n\},x_i\in\mathcal{R}^N
U={x1,x2,...,xn},xi∈RN,
Δ
Δ
Δ是在
U
U
U中的距离函数,满足
Δ
(
x
i
,
x
j
)
≥
0
Δ(xi,xj){\geq}0
Δ(xi,xj)≥0,这里的距离函数一般用的是欧氏距离。给定
δ
≥
0
δ{\geq}0
δ≥0.则有
δ
(
x
)
=
{
x
i
∣
Δ
(
x
,
x
i
)
≤
δ
}
δ(x)=\{x_i|Δ(x,x_i){\leq}δ\}
δ(x)={xi∣Δ(x,xi)≤δ},来表示样例Xi的邻域,给定两个特征空间
R
R
R和
S
S
S,
δ
R
(
x
)
δ_R(x)
δR(x)、
δ
S
(
x
)
δ_S(x)
δS(x)分别为在R和S特征空间下的邻域,如果分别用基于距离的无穷范数计算出的X的邻域,我们有性质:
δ
R
∪
S
(
x
)
=
δ
R
(
x
)
∩
δ
S
(
x
)
δ_{R{\cup}S}(x)=δ_R(x){\cap}δ_S(x)
δR∪S(x)=δR(x)∩δS(x)。
对于分类任务,决策特征为每个样本指定一个类别标签。如果样本
x
x
x属于某个特征空间的某个类,我们便认为样本x的决策在此类中是具有一致性的。决策类的上下近似集
c
i
c_i
ci分别定义为:
N ‾ c i = { x ∣ δ ( x ) ⊆ c i } , N ‾ c i = { x ∣ δ ( x ) ∩ c i ≠ ∅ } \underline{N}c_i=\{x|δ(x){\subseteq}c_i\},\space\space\overline{N}_{c_i}=\{x|δ(x){\cap}c_i{\neq}\emptyset\}\space Nci={x∣δ(x)⊆ci}, Nci={x∣δ(x)∩ci=∅} ( ∅ \empty ∅代表空集)
N N N代表了邻域关系。
相应的,总的上下近似集分别写作:
N ‾ C = ⋃ i = 1 k N ‾ c i \underline{N}C=\bigcup\limits_{i=1}^k\underline{N}c_i NC=i=1⋃kNci, N ‾ C = ⋃ i = 1 k N ‾ C i \overline{N}C=\bigcup\limits_{i=1}^k\overline{N}C_i NC=i=1⋃kNCi,
对于 c i c_i ci,边界区定义为:
B N ( c i ) = N ‾ c i − N ‾ c i BN(c_i)=\overline{N}c_i-\underline{N}c_i BN(ci)=Nci−Nci
对样本集来说:决策属性C对于特征属性S的依赖度定义为:
γ S ( C ) = ∣ ∣ N ‾ C ∣ ∣ ∣ ∣ U ∣ ∣ \gamma_S(C)=\frac{||\underline{N}C||}{||U||} γS(C)=∣∣U∣∣∣∣NC∣∣
具体的邻域粗糙集知识可参考:https://blog.csdn.net/liuyuemaicha/article/details/52355787
3.在度量空间中的邻互信息
由于难以估计概率密度,香农熵和互信息不能用来计算数值型特征之间的相关性。在本节,我们将邻域的概念引入信息论,并将香农熵推广至处理数值信息。
定义 1:
给定一组样例:
U
=
x
1
,
x
2
,
.
.
.
,
x
n
U={x_1,x_2, ... ,x_n}
U=x1,x2,...,xn,这组样例具有数值型或离散型的特征
F
F
F。
S
S
S是
F
F
F中属性的子集。在
S
S
S中
x
i
x_i
xi的邻域由
δ
s
(
X
i
)
δ_s(X_i)
δs(Xi)表示。该样例的邻域不确定性定义为:
N H δ x i ( S ) = − l o g ∣ ∣ δ S ( x i ) ∣ ∣ n NH_δ^{x_i}(S)=-log{\frac{||δ_S(x_i)||}{n}} NHδxi(S)=−logn∣∣δS(xi)∣∣
(这里的|| δ s ( X i ) δ_s(X_i) δs(Xi)||代表该邻域中元素的个数)
样例集的平均不确定性用以下公式来计算:
N H δ ( S ) = − 1 n ∑ i = 1 n log ∣ ∣ δ s ( x i ) ∣ ∣ n NH_δ(S)=-\frac{1}{n}\sum\limits_{i=1}^n{\log}\frac{||δ_s(x_i)||}{n} NHδ(S)=−n1i=1∑nlogn∣∣δs(xi)∣∣
由于
∀
x
i
{\forall}x_i
∀xi ,
δ
s
(
X
i
)
⊆
U
,
∣
∣
δ
s
(
x
i
)
∣
∣
/
n
≤
1
δ_s(X_i){\subseteq}U,||δ_s(x_i)||/n{\leq}1
δs(Xi)⊆U,∣∣δs(xi)∣∣/n≤1,因而我们有
log
n
≥
N
H
δ
(
S
)
≥
0
{\log}n{\geq} NH_δ(S) {\geq} 0
logn≥NHδ(S)≥0。
当且仅当
∀
{\forall}
∀
x
i
x_i
xi
∣
∣
δ
s
(
x
i
)
∣
∣
||δ_s(x_i)||
∣∣δs(xi)∣∣ = 1时
N
H
δ
(
S
)
NH_δ(S)
NHδ(S)=
log
n
{\log}n
logn。
当且仅当
∀
{\forall}
∀
x
i
x_i
xi
∣
∣
δ
s
(
x
i
)
∣
∣
||δ_s(x_i)||
∣∣δs(xi)∣∣ = n时
N
H
δ
(
S
)
NH_δ(S)
NHδ(S)= 0。
定理1: 如果 δ δ δ ≤ \le ≤ δ ′ δ' δ′, N H δ ( S ) NH_δ(S) NHδ(S) ≥ \geq ≥ N H δ ′ ( S ) NH_{δ'}(S) NHδ′(S)
证明:
∀
{\forall}
∀
x
i
x_i
xi
∈
\in
∈
U
U
U,我们有
δ
δ
δ
⊆
\subseteq
⊆
δ
′
δ'
δ′,并且
∣
∣
δ
(
x
i
)
∣
∣
||δ(x_i)||
∣∣δ(xi)∣∣
≤
\le
≤
∣
∣
δ
′
(
x
i
)
∣
∣
||δ'(x_i)||
∣∣δ′(xi)∣∣因而有
N
H
δ
(
S
)
NH_δ(S)
NHδ(S)
≥
\geq
≥
N
H
δ
′
(
S
)
NH_{δ'}(S)
NHδ′(S) 。
(可以这么理解:定理是当定义的邻域大于原邻域时,邻域熵会减小,证明是当邻域变大时,邻域中的元素可能增加,邻域中元素增加导致邻域熵降低)
定理2: 如果 δ δ δ=0,则有 N H δ ( S ) NH_δ(S) NHδ(S)= H ( S ) H(S) H(S) ,此时邻域熵退化为香农熵。
证明: 如果 δ δ δ=0,那么样例会被分为互不关联的 X 1 , X 2 , . . . , X m X_1,X_2,...,X_m X1,X2,...,Xm,且有: ∀ Δ ( x i , x j ) = 0 {\forall}Δ(x_i,x_j)=0 ∀Δ(xi,xj)=0, x i , x j ∈ X k x_i,x_j{\in}X_k xi,xj∈Xk,假设在 X i X_i Xi中每类样本有 m i m_i mi个,那么香农熵则为 H ( S ) = − ∑ i = 1 m m i n l o g m i n H(S)=-\sum_{i=1}^m{\frac{m_i}{n}}log{\frac{m_i}{n}} H(S)=−∑i=1mnmilognmi。如果 x ∈ X k x{\in}X_k x∈Xk并且 δ = 0 δ=0 δ=0,那么就有 δ s ( x ) = X k δ_s(x)=X_k δs(x)=Xk。
若 i ≠ j i{\neq}j i=j,就有 X i ∩ X j X_i{\cap}X_j Xi∩Xj ,可计算邻域熵:
N H δ ( S ) = − 1 n log ∣ ∣ δ s ( x i ) ∣ ∣ n NH_δ(S) = -{\frac{1}{n}{\log}{\frac{||δ_s(x_i)||}{n}}} NHδ(S)=−n1logn∣∣δs(xi)∣∣
= ∑ x ∈ X 1 − 1 n log ∣ ∣ δ s ( x ) ∣ ∣ n + ∑ x ∈ X 2 − 1 n log ∣ ∣ δ s ( x ) ∣ ∣ n + . . . + ∑ x ∈ X m − 1 n log ∣ ∣ δ s ( x ) ∣ ∣ n =\sum\limits_{x{\in}X_1}-\frac{1}{n}{\log}\frac{||δ_s(x)||}{n}+\sum\limits_{x{\in}X_2}-\frac{1}{n}{\log}\frac{||δ_s(x)||}{n}+...+\sum\limits_{x{\in}X_m}-\frac{1}{n}{\log}\frac{||δ_s(x)||}{n} =x∈X1∑−n1logn∣∣δs(x)∣∣+x∈X2∑−n1logn∣∣δs(x)∣∣+...+x∈Xm∑−n1logn∣∣δs(x)∣∣
从此可以推测出: δ δ δ=0时,有 N H δ ( S ) NH_δ(S) NHδ(S)= H ( S ) H(S) H(S)
定义2:
R
,
S
∈
F
R, S{\in} F
R,S∈F是属性的两个子集。样本
x
i
x_i
xi在特征子空间
R
∪
S
R{\cup}S
R∪S中的邻域可以被表示为
δ
R
∪
S
(
x
i
)
δ_{R{\cup}S}(x_i)
δR∪S(xi),那么联合邻域熵可以用以下公式计算:
N H δ ( R , S ) = − 1 n ∑ i = 1 n log ∣ ∣ δ R ∪ S ( x i ) ∣ ∣ n NH_{δ}(R,S)=-{\frac{1}{n}}\sum\limits_{i=1}^{n}\log{\frac{||δ_{R{\cup}S}(x_i)||}{n}} NHδ(R,S)=−n1i=1∑nlogn∣∣δR∪S(xi)∣∣
特别的,如果R是一组输入变量,C是分类属性,我们定义 δ R ∪ S ( X i ) = δ R ( x i ) ∩ c x i δ_{R{\cup}S}(X_i)=δ_R(x_i){\cap}c_{x_i} δR∪S(Xi)=δR(xi)∩cxi,那么有:
N H δ ( R , S ) = − 1 n ∑ i = 1 n log ∣ ∣ δ R ( x i ) ∩ C x i ∣ ∣ n NH_δ(R,S)=-{\frac{1}{n}}\sum\limits_{i=1}^{n}\log{\frac{||δ_R(x_i){\cap}C_{x_i}||}{n}} NHδ(R,S)=−n1i=1∑nlogn∣∣δR(xi)∩Cxi∣∣
定理3: N H δ ( R , S ) ≥ N H δ ( R ) , N H δ ( R , S ) ≥ N H δ ( S ) NH_δ(R, S){\geq}NH_δ(R),NH_δ(R,S){\geq}NH_δ(S) NHδ(R,S)≥NHδ(R),NHδ(R,S)≥NHδ(S)
证明: 对于 ∀ x i ∈ U {\forall}x_i{\in}U ∀xi∈U,我们有 δ S ∪ R ( x i ) ⊆ δ S ( x i ) δ_{S{\cup}R}(x_i){\subseteq}δ_S(x_i) δS∪R(xi)⊆δS(xi)和 δ S ∪ R ( x i ) ⊆ δ R ( x i ) δ_{S{\cup}R}(x_i){\subseteq}δ_R(x_i) δS∪R(xi)⊆δR(xi),然后有 ∣ ∣ δ S ∪ R ( x i ) ∣ ∣ ≤ ∣ ∣ δ S ( x i ) ∣ ∣ ||δ_{S{\cup}R}(x_i)||{\leq}||δ_S(x_i)|| ∣∣δS∪R(xi)∣∣≤∣∣δS(xi)∣∣和 ∣ ∣ δ S ∪ R ( x i ) ∣ ∣ ≤ ∣ ∣ δ R ( x i ) ∣ ∣ ||δ_{S{\cup}R}(x_i)||{\leq}||δ_R(x_i)|| ∣∣δS∪R(xi)∣∣≤∣∣δR(xi)∣∣,因而有 N H δ ( R , S ) ≥ N H δ ( R ) NH_δ(R, S){\geq}NH_δ(R) NHδ(R,S)≥NHδ(R)和 N H δ ( R , S ) ≥ N H δ ( S ) NH_δ(R, S){\geq}NH_δ(S) NHδ(R,S)≥NHδ(S)
定义3: R , S ⊆ F R,S{\subseteq}F R,S⊆F是属性的两个子集,则 R R R对于 S S S的条件邻域熵定义为:
N H δ ( R ∣ S ) NH_δ(R|S) NHδ(R∣S)= − 1 n ∑ i = 1 n log ∣ ∣ δ S ∪ R ( x i ) ∣ ∣ ∣ ∣ δ S ( x i ) ∣ ∣ -{\frac{1}{n}}{\sum\limits_{i=1}^{n}}{\log}{\frac{||δ_{S{\cup}R}(x_i)||}{||δ_S(x_i)||}} −n1i=1∑nlog∣∣δS(xi)∣∣∣∣δS∪R(xi)∣∣
定理4: N H δ ( R ∣ S ) = N H δ ( R , S ) − N H δ ( S ) NH_δ(R|S)=NH_δ(R,S)-NH_δ(S) NHδ(R∣S)=NHδ(R,S)−NHδ(S)
证明: N H δ ( R , S ) − N H δ ( S ) NH_δ(R,S)-NH_δ(S) NHδ(R,S)−NHδ(S)
=
−
1
n
∑
i
=
1
n
log
∣
∣
δ
S
∪
R
(
x
i
)
∣
∣
n
−
(
−
1
n
∑
i
=
1
n
log
∣
∣
δ
S
(
x
i
)
∣
∣
n
)
=-{\frac{1}{n}}\sum\limits_{i=1}^{n}{\log}{\frac{||δ_{S{\cup}R}(x_i)||}{n}}-(-{\frac{1}{n}}\sum\limits_{i=1}^{n}{\log}{\frac{||δ_{S}(x_i)||}{n}})
=−n1i=1∑nlogn∣∣δS∪R(xi)∣∣−(−n1i=1∑nlogn∣∣δS(xi)∣∣)
=
−
1
n
∑
i
=
1
n
(
log
∣
∣
δ
S
∪
R
(
x
i
)
∣
∣
n
−
log
∣
∣
δ
S
(
x
i
)
∣
∣
n
)
=-{\frac{1}{n}}\sum\limits_{i=1}^{n}({\log}{\frac{||δ_{S{\cup}R}(x_i)||}{n}}-{\log}{\frac{||δ_{S}(x_i)||}{n}})
=−n1i=1∑n(logn∣∣δS∪R(xi)∣∣−logn∣∣δS(xi)∣∣)
=
−
1
n
∑
i
=
1
n
log
∣
∣
δ
S
∪
R
(
x
i
)
∣
∣
∣
∣
δ
S
(
x
i
)
∣
∣
=-{\frac{1}{n}}\sum\limits_{i=1}^{n}{\log}{\frac{||δ_{S{\cup}R}(x_i)||}{||δ_{S}(x_i)||}}
=−n1i=1∑nlog∣∣δS(xi)∣∣∣∣δS∪R(xi)∣∣
定义4: R , S ⊆ F R,S{\subseteq}F R,S⊆F是属性的两个子集,则 R R R与 S S S的邻互信息定义为:
N M I δ ( R ; S ) = − 1 n ∑ i = 1 n log ∣ ∣ δ R ( x i ) ∣ ∣ ∗ ∣ ∣ δ S ( x i ) ∣ ∣ n ∗ ∣ ∣ δ S ∪ R ( x i ) ∣ ∣ NMI_δ(R;S)=-{\frac{1}{n}}\sum\limits_{i=1}^{n}{\log}{\frac{||δ_{R}(x_i)||*||δ_{S}(x_i)||}{n*||δ_{S{\cup}R}(x_i)||}} NMIδ(R;S)=−n1i=1∑nlogn∗∣∣δS∪R(xi)∣∣∣∣δR(xi)∣∣∗∣∣δS(xi)∣∣
定理5: 给定属性的两个子集R和S, N M I δ ( R ; S ) NMI_δ(R;S) NMIδ(R;S)设为这两个子集的互信息,则有以下的等式成立:
N
M
I
δ
(
R
;
S
)
=
N
M
I
δ
(
S
;
R
)
NMI_δ(R;S)=NMI_δ(S;R)
NMIδ(R;S)=NMIδ(S;R)
N
M
I
δ
(
R
;
S
)
=
N
H
δ
(
R
)
+
N
H
δ
(
S
)
−
N
H
δ
(
R
,
S
)
NMI_δ(R;S)=NH_δ(R)+NH_δ(S)-NH_δ(R,S)
NMIδ(R;S)=NHδ(R)+NHδ(S)−NHδ(R,S)
N
M
I
δ
(
R
;
S
)
=
N
H
δ
(
R
)
−
N
H
δ
(
R
∣
S
)
=
N
H
δ
(
S
)
−
N
H
δ
(
S
∣
R
)
NMI_δ(R;S)=NH_δ(R)-NH_δ(R|S)=NH_δ(S)-NH_δ(S|R)
NMIδ(R;S)=NHδ(R)−NHδ(R∣S)=NHδ(S)−NHδ(S∣R)
证明: 比较简单,不引用过来了
引理1: 给定一个由属性集F组成的样本集, R ⊆ F R{\subseteq}F R⊆F且C为决策属性。当样本的决策属性具有邻域一致性时, N M I δ x ( R ; C ) = H x ( C ) NMI_δ^x(R;C)=H^x(C) NMIδx(R;C)=Hx(C),其中:
N M I δ x ( R ; C ) = − log ∣ ∣ δ R ( x ) ∣ ∣ ∗ ∣ ∣ c x ∣ ∣ n ∣ ∣ δ R ∪ C ( x ) ∣ ∣ NMI_δ^x(R;C)=-{\log}{\frac{||δ_{R}(x)||*||c_x||}{n||δ_{R{\cup}C}(x)||}} NMIδx(R;C)=−logn∣∣δR∪C(x)∣∣∣∣δR(x)∣∣∗∣∣cx∣∣
H x ( C ) = − log ∣ ∣ c x ∣ ∣ n H^x(C)=-{\log}{\frac{||c_x||}{n}} Hx(C)=−logn∣∣cx∣∣
证明: δ R ∪ C ( x ) = δ R ( x ) ∩ c x δ_{R{\cup}C}(x)=δ_R(x){\cap}c_x δR∪C(x)=δR(x)∩cx,若x具有一致性,则有 δ R ( x ) ⊆ c x δ_R(x){\subseteq}c_x δR(x)⊆cx。在该种情况中 δ R ∪ C ( x ) = δ R ( x ) δ_{R{\cup}C}(x)=δ_{R}(x) δR∪C(x)=δR(x),就有:
− log ∣ ∣ δ R ( x ) ∣ ∣ ∗ ∣ ∣ c x ∣ ∣ n ∣ ∣ δ R ∪ C ( x ) ∣ ∣ = − log ∣ ∣ δ R ( x ) ∣ ∣ ∗ ∣ ∣ c x ∣ ∣ n ∣ ∣ δ R ( x ) ∣ ∣ = − log ∣ ∣ c x ∣ ∣ n -{\log}{\frac{||δ_R(x)||*||c_x||}{n||δ_{R{\cup}C}(x)||}}=-{\log}{\frac{||δ_R(x)||*||c_x||}{n||δ_R(x)||}}=-{\log}{\frac{||c_x||}{n}} −logn∣∣δR∪C(x)∣∣∣∣δR(x)∣∣∗∣∣cx∣∣=−logn∣∣δR(x)∣∣∣∣δR(x)∣∣∗∣∣cx∣∣=−logn∣∣cx∣∣.
定理6: 给定一组由属性集F描述的样本集U, R ⊆ S R{\subseteq}S R⊆S并且C为决策属性,如果样本的决策在特征子空间 R R R中具有一致性,则有:
N M I δ ( R ; C ) = H ( C ) NMI_δ(R;C)=H(C) NMIδ(R;C)=H(C)
证明: 当特征子空间中的所有决策具有一致性时,每个样本的决策是一致的。对于 ∀ x i ∈ U , N M I δ x i ( R ; C ) = H x i ( C ) {\forall}x_i{\in}U,{NMI_δ^{x_i}(R;C)=H^{x_i}(C)} ∀xi∈U,NMIδxi(R;C)=Hxi(C),所以有:
∑ i = 1 n N M I δ x i ( R ; C ) = ∑ i = 1 n H x i ( C ) {\sum\limits_{i=1}^{n}}NMI_δ^{x_i}(R;C)={\sum\limits_{i=1}^{n}}H^{x_i}(C) i=1∑nNMIδxi(R;C)=i=1∑nHxi(C).便有如上结论
定理6说明了如果对特征的分类基于R的知识时是一致的,特征集R和决策C之间的互信息等价于决策的不确定性的量度。如果属性R已知,则分类没有任何分类的不确定性。此外,我们通过引理1也可得出:当决策具有一致性时,R和C之间的互信息象征分类样本x时的x的不确定性。通过引理1和定理6,我们不仅可以区分在分类训练的所有样本是否具有一致性,并且即使决策在整体上不一致也可以知道哪个样本是一致的。
在实际中,只有部分的样本是一致的。
4.特征选择的策略
4.1 特征选择的公理化
邻互信息测量了数值或名义型变量之间的相关度。同时也说明了当变量为名义型时邻域熵会退化为香农熵,因此邻互信息将退化为传统的互信息。互信息广泛应用于特征选择之中。我们通过邻互信息计算相关性,将这些算法拓展到选择数值型和名义型特征。
如粗糙集理论讨论的那样,一个健全的特征子集应当是充分的并且必要的。
Axiom 1.1 充分性(sufficiency)需要所选的特征子集如特征集那样可以描述决策。比如现有一个特征子集S属于特征集F,C为决策变量,利用S和F得出的是相同的决策。
Axiom 1.2 必要性(necessary)要求在选定的特征子集中没有多余的特征。
若特征子集满足充分性和必要性,则在粗糙集理论中称为相对简约。
根据信息论,又有特征子集选择的第二公理方法:
Axiom 2.1 (学习信息的保留)对于特征集F的任意一组充分的特征子集S,C是决策属性,有以下性质: M I ( F ; C ) = M I ( S ; C ) MI(F;C)=MI(S;C) MI(F;C)=MI(S;C)
Axiom 2.2 (最小编码长度)给定一个特征集F和决策属性C描述的数据集, S \mathbb{S} S是充分子集的集合。联合熵 H ( S , C ) H(S,C) H(S,C)最小的子集 S ∈ S S{\in}\mathbb{S} S∈S应该是最优选。
以上公理基于信息论和奥卡姆剃刀定律的给出了良好特征子集的公理化描述。在实际中,对于一致分类问题,我们很容易得到以下的性质:如果 r F ( C ) = r S ( C ) r_F(C)=r_S(C) rF(C)=rS(C)(这里的指的是分类对于F和S的依赖性),我们就有 M I ( F ; C ) = M I ( S ; C ) MI(F;C)=MI(S;C) MI(F;C)=MI(S;C)
我们认为依赖性和互信息是特征间相关性的量度,以上两种公理方法都是要求特征子集与决策属性之间的相关性不降低。
不同之处是两种方法的第二项,在粗糙集框架中,优先选择最少的特征子集,在信息论中,优先选择信息增益最大的特征。熵曾被视为一种基于特征价值对于论域中对象的知识粒度的量度。通过最小化联合熵,可以选择出一个特征子集,使得特征子集和决策变量共同推导的粒度最大。
但是这一量度很难应用于数值特征的选择,现在我们提出了第三个同时适用于名义特征子集和数值特征子集选择的数学系统:
Axiom 3.1 (δ粒度下学习信息的保存) 给定一个有特征集F和决定属性C组成的数据集,若 N M I δ ( S ; C ) = N M I δ ( F ; C ) NMI_δ(S;C)=NMI_δ(F;C) NMIδ(S;C)=NMIδ(F;C),则关于粒度 δ δ δ期望的特征子集 S S S是充分的
Axiom 3.2 (δ粒度下最小化编码长度)给定一个由特征集F和决策属性C构成的数据集, S \mathbb{S} S是充分特征子集的集合。对于 S ∈ S S∈\mathbb{S} S∈S,最小化邻域联合熵的 N H δ ( S , C ) NH_δ(S,C) NHδ(S,C)应当是在关于 δ δ δ粒度下预测能力的最优子集。
值得注意的是,Axiom 3给出了一个多粒度的方式描述一个数值型特征子集的分类能力,因为δ可以被认为是一个变量。多粒度的分析可以应用在讨论分类问题中,我们有以下的单调性:
性质 7.(第一类单调性)给定一个由特征集F和决策变量C描述的一致性的分类问题, S ∈ F S∈F S∈F是一个在 δ δ δ粒度下充分的特征子集。如果 S ⊆ R ⊆ F S{\subseteq}R{\subseteq}F S⊆R⊆F,R是一个充分的特征子集。
证明:比较简单…不引用了
性质 8.(第二类单调性)给定一个由特征集F和决策属性C描述的一致性分类问题, S ⊆ R ⊆ F S{\subseteq}R{\subseteq}F S⊆R⊆F。我们有 0 ≤ δ 1 ≤ δ 2 0{\leq}δ_1{\leq}δ_2 0≤δ1≤δ2,如果我们有 S S S是在 δ 2 δ_2 δ2下的充分的特征子集,那么 S S S也是在 δ 1 δ_1 δ1下的充分的特征子集
证明: S S S是一个充分的特征子集,如果我们有 N M I δ 2 ( S ; C ) = N M I δ 2 ( F ; C ) = H ( C ) NMI_{δ_2}(S;C)=NMI_{δ_2}(F;C)=H(C) NMIδ2(S;C)=NMIδ2(F;C)=H(C)。这反映了在S的特征子空间的分类问题在粒度 δ 2 δ_2 δ2下是一致的。当 0 ≤ δ 1 ≤ δ 2 0{\leq}δ_1{\leq}δ_2 0≤δ1≤δ2时,如果S和F在粒度 δ 1 δ_1 δ1下的分类是一致的,那么分类在粒度 δ 2 δ_2 δ2下的分类同样是一致的。因此邻互信息 N M I δ 1 ( F ; C ) = H ( C ) NMI_{δ_1}(F;C)=H(C) NMIδ1(F;C)=H(C)。我们有 N M I δ 1 ( S ; C ) = N M I δ 1 ( F ; C ) NMI_{δ_1}(S;C)=NMI_{δ_1}(F;C) NMIδ1(S;C)=NMIδ1(F;C)
4.2 特征选择算法
以上公理化的方法为特征子集的选择设立了一个目标。期望的子集 S S S应当是充分的(sufficient),并且该子集的邻联合熵 N H δ ( S , C ) NH_{δ}(S,C) NHδ(S,C)最低。一个直截了当的方式是全面检索特征子集找到一个期望的子集。但是就算给予的候选特征集的规模适中也并不可行,因为算法复杂度呈指数级增长。
有一些高效的方法可以这些复杂度问题。Battiti 讨论过两种选取特征子集的标准,分别是:Max-Relevance(MR), Minimal-Redundancy and Max-Relevance(mRMR), 分别地,我们这里将介绍两种新的标准,称为Maximal-Dependency(MD) and Minimal-redundancy and Maximal-Dependency(mRMD)。并且,我们会根据邻互信息提供一种新的解释。
直观看,与决策相关性最大的特征应当为分类提供更多的信息。因此,最好的特征应当位于互信息最优的特征之列。这个策略被称为最大相关性(Max-Relevance)标准。正规地,最大相关性标准应当被写为下述表达式:
m a x D ( S , C ) , D = 1 ∣ ∣ S ∣ ∣ ∑ f i ∈ S N M I δ ( f i ; C ) maxD(S,C), D={\frac{1}{||S||}}{\sum\limits_{f_i∈S}}NMI_δ(f_i;C) maxD(S,C),D=∣∣S∣∣1fi∈S∑NMIδ(fi;C)
本质上,最大相关性标准是基于排位和贪心的特征选择算法。我们将所有特征按照与决策属性的互信息的标准进行降序排序,并且选择前k个特征。
易知以上的排序不能去除特征之间的冗余,因为以上算法忽视了变量之间的相关性。有时候去除以上算法挑选出的特征集中的某个特征,也不会影响到最终的决策。在这种情况下,我们应该挑选出最小冗余的一组特征。可以表达为:
m i n ( R ) , R = 1 ∣ ∣ S ∣ ∣ 2 ∑ f i , f j ∈ S N M I δ ( f i ; f j ) min(R), R={\frac{1}{||S||^2}}{\sum\limits_{f_i,f_j∈S}}NMI_δ(f_i;f_j) min(R),R=∣∣S∣∣21fi,fj∈S∑NMIδ(fi;fj)
接着我们可以通过合并以上两种限制条件得到一个新的标准,称为最小冗余最大相关性(mRMR)标准:
m a x Φ ( D , R ) , Φ = D − β R max {\Phi}(D,R),{\Phi}=D-βR maxΦ(D,R),Φ=D−βR
此处的参数β被用来约束特征与决策之间互信息的相对重要性。mRMR逐个计算每个特征的重要性并根据他们的重要性降序排序。一些分类算法引入来根据分类表现检索出最好的 k k k个特征。
另一个选择特征的方法是用贪心算法,最大化特征子集和决策之间的共同相关性;其作为一个副产物,特征之间的冗余可能会得到降低。这个标准称为Maximal-Dependency(MD)。在每轮,我们选取使共同的互信息增长最大的特征,可以表达为:
max f ∈ F − S Ψ ( f , S , C ) , Ψ ( f , S , C ) = N M I δ ( S ∪ { f } ; C ) − N M I δ ( S ; C ) \max\limits_{f∈F-S}{\Psi}(f,S,C),{\Psi}(f,S,C)=NMI_δ(S{\cup}\{f\};C)-NMI_δ(S;C) f∈F−SmaxΨ(f,S,C),Ψ(f,S,C)=NMIδ(S∪{f};C)−NMIδ(S;C)
可将上式简化为: 1 n ∑ i = 1 n log ∣ ∣ δ s ( x i ) ∩ δ f ( x i ) ∣ ∣ ∗ ∣ ∣ δ s ( x i ) ∩ δ c ( x i ) ∣ ∣ ∣ ∣ δ s ( x i ) ∩ δ c ( x i ) ∩ δ f ( x i ) ∣ ∣ ∗ ∣ ∣ δ s ( x i ) ∣ ∣ {\frac{1}{n}}\sum\limits_{i=1}^{n}{\log}{\frac{||δ_s(x_i){\cap}δ_f(x_i)||*||δ_s(x_i){\cap}δ_c(x_i)||}{||δ_s(x_i){\cap}δ_c(x_i){\cap}δ_f(x_i)||*||δ_s(x_i)||}} n1i=1∑nlog∣∣δs(xi)∩δc(xi)∩δf(xi)∣∣∗∣∣δs(xi)∣∣∣∣δs(xi)∩δf(xi)∣∣∗∣∣δs(xi)∩δc(xi)∣∣
若距离函数是基于无穷范数的,便有 δ R ∪ S ( x ) = δ R ( x ) ∩ δ S ( x ) δ_{R{\cup}S}(x)=δ_R(x){\cap}δ_S(x) δR∪S(x)=δR(x)∩δS(x)。 我们设: P x i ( C ∣ S ) = ∣ ∣ δ s ( x i ) ∩ δ c ( x i ) ∣ ∣ ∣ ∣ δ s ( x i ) ∣ ∣ P^{x_i}(C|S)={\frac{||δ_s(x_i){\cap}δ_c(x_i)||}{||δ_s(x_i)||}} Pxi(C∣S)=∣∣δs(xi)∣∣∣∣δs(xi)∩δc(xi)∣∣和 P x i ( C ∣ S ∪ { f } ) = ∣ ∣ δ s ( x i ) ∩ δ c ( x i ) ∩ δ f ( x i ) ∣ ∣ ∣ ∣ δ s ( x i ) ∩ δ f ( x i ) ∣ ∣ P^{x_i}(C|S{\cup}\{f\})={\frac{||δ_s(x_i){\cap}δ_c(x_i){\cap}δ_f(x_i)||}{||δ_s(x_i){\cap}δ_f(x_i)||}} Pxi(C∣S∪{f})=∣∣δs(xi)∩δf(xi)∣∣∣∣δs(xi)∩δc(xi)∩δf(xi)∣∣
接着我们可以将原式简化为:
N
M
I
δ
(
S
∪
{
f
}
;
C
)
−
N
M
I
δ
(
S
;
C
)
=
1
n
∑
i
=
1
n
log
P
x
i
(
C
∣
S
)
P
x
i
(
C
∣
S
∪
{
f
}
)
NMI_δ(S{\cup}\{f\};C)-NMI_δ(S;C)={\frac{1}{n}}\sum\limits^n_{i=1}{\log}\frac{P^{x_i}(C|S)}{P^{x_i}(C|S{\cup}\{f\})}
NMIδ(S∪{f};C)−NMIδ(S;C)=n1i=1∑nlogPxi(C∣S∪{f})Pxi(C∣S)
这个推论展示了最小化函数
Ψ
(
f
,
S
,
C
)
{\Psi}(f,S,C)
Ψ(f,S,C)的问题转化为在现有的特征集中添加一个特征
f
f
f使得分类能力的增长最大。在利用邻域互信息评价特征时,我们隐式估计了邻域样本的概率和类概率,不精确的估计不会对最终结果产生太大影响,因为我们只是在每一轮中获取最好的特征。
(1) S ∪ { f } S{\cup}\{f\} S∪{f}特征子空间内非一致的样本
上图展现不同的特征子空间内 x i x_i xi的邻域。 δ c ( x i ) δ_c(x_i) δc(xi), δ s ( x i ) δ_s(x_i) δs(xi), δ f ( x i ) δ_f(x_i) δf(xi)分别是决策向量 c c c,当前的特征集 s s s,新的特征 f f f的邻域。在图(1)中, δ s ( x i ) ⊄ δ c ( x i ) δ_s(x_i){\not\sub}δ_c(x_i) δs(xi)⊂δc(xi)。在将 f f f添加进入 S S S后, δ S ∪ f ( x i ) = δ S ( x i ) ∩ δ f ( x i ) δ_{S{\cup}{f}}(x_i)=δ_S(x_i){\cap}δ_f(x_i) δS∪f(xi)=δS(xi)∩δf(xi)还没有被 δ c ( x i ) δ_c(x_i) δc(xi)包含。这表示样本 x i x_i xi在子空间 S S S和 S ∪ { f } S{\cup}\{f\} S∪{f}不是一致的。
(2) S ∪ { f } S{\cup}\{f\} S∪{f}特征子空间内一致的样本
图(2)中 x i x_i xi在 S S S特征子空间不一致,但在 S ∪ { f } S{\cup}\{f\} S∪{f}是一致的。在这种情况下, N M I δ x i ( S ∪ { f } ; C ) = H x i ( C ) > N M I δ x i ( S ; C ) NMI_δ^{x_i}(S{\cup}\{f\};C)=H^{x_i}(C)>NMI^{x_i}_δ(S;C) NMIδxi(S∪{f};C)=Hxi(C)>NMIδxi(S;C).
MD是一种选择当前最优特征的局部最优算法,但选择的特征未必是全局最优的。而且这个算法忽略了特征之间的冗余,因此我们给出了最小冗余最大依赖算法(mRMD):
m a x Θ ( S , c ) , Θ = N M I δ ( S ; C ) − β ∣ ∣ S ∣ ∣ 2 ∑ f i , f j ∈ S N M I δ ( f i ; f j ) max{\Theta}(S,c),{\Theta}=NMI_δ(S;C)-{\frac{β}{||S||^2}}{\sum\limits_{f_i,f_j{\in}S}}NMI_δ(f_i;f_j) maxΘ(S,c),Θ=NMIδ(S;C)−∣∣S∣∣2βfi,fj∈S∑NMIδ(fi;fj)
值得注意的是,理想的特征应当是全局最大相关的,即最大化 N M I δ ( S ; C ) NMI_δ(S;C) NMIδ(S;C)。但是找到一个全局最优特征集是NP-hard问题。以上的四种标准仅仅助于近似解。
现在我们讨论这些算法的复杂性。给定N个候选特征,我们需要计算N个特征和决策变量之间的相关性。因而对于MR来说,这一行为的复杂性为O(N)。当对于 m R M R mRMR mRMR标准时,我们需要假定 k k k个特征已经被我们挑选,然后我们还应当计算 N − k N-k N−k个剩余特征与决策之间的相关性。此外,我们也需要计算 N − k N-k N−k之间的剩余特征和已经被挑选向量的相关性。当前一轮的计算复杂度是 N − k + ( N − k ) ∗ k N-k+(N-k)*k N−k+(N−k)∗k。总复杂度是 ∑ k = 1 N ( N − k + ( N − k ) ∗ k ) \sum_{k=1}^N(N-k+(N-k)*k) ∑k=1N(N−k+(N−k)∗k)。因此,mRMR的时间复杂度为 O ( N 3 ) O(N^3) O(N3)。对于MD来说,假定k个特征(我们用 S k S_k Sk来表示)在之前的k轮被选中,然后我们应当计算 S k S_k Sk和剩余的 N − k N-k N−k个特征之间的联合互信息。一轮的复杂度是 O ( N − k ) O(N-k) O(N−k),总复杂度为 O ( N 2 ) O(N^2) O(N2)。 m R M D mRMD mRMD的复杂度与 m R M R mRMR mRMR的复杂度一致。总之, M R MR MR的计算复杂度是线性的, M D MD MD的是二次方的,而 m R M R mRMR mRMR和 m R M D mRMD mRMD的是三次方的。
未完待续…