FCBF算法解析

最新推荐文章于 2021-10-21 17:46:12 发布

汤宪宇

最新推荐文章于 2021-10-21 17:46:12 发布

阅读量7.8k

点赞数 14

文章标签： FCBF SU 马尔可夫毯冗余特征

本文链接：https://blog.csdn.net/tangxianyu/article/details/100551675

版权

FCBF算法是Lei Yu、Huan Liu于2004发表的Efficient Feature Selection via Analysis of Relevance and Redundancy中提出的。文章主要提出应用SU(Smymetrical uncertainty)代替信息增信IG(Information Gain)作为衡量一个特征是否于分类C相关或者是否冗余。

FCBF具体算法实现：

下面以一个实际的例子来解释上面的伪代码：

首先：找到一个和分类C相关的特征子集 $S_{list}$ 。计算每个特征 $F_i$ 与分类C之间的SU值，并按照降序排列，当 $SU_{ic}>\delta$ (δ是提前设定的阈值)，则认为特征是相关特征，加入到 $S_{list}$ 当中；否则认为是不相关特征。此处得到6各特征 $F_1, ... ,F_6$ ，依次按照 $SU_{i,c}$ 值进行降序排列， $SU_{1,c}$ 最大， $SU_{6,c}$ 最小。

其次：在特征子集 $S_{list}$ 内剔除冗余特征得到 $S_{best}$ 。此处是FCBF的核心部分，需要进行详细说明：

1、选择 $SU_{i,c}$ 值最大的特征 $F_1$ （ $S_{list}$ 中的第一个特征）作为主特征；

2、在 $S_{list}$ 依次选择 $SU_{i,c}$ 值小于主特征的特征 $F_2, ... ,F_6$ ，分别比较该特征与第一个特征的 $SU_{i,1}$ ，该特征与分类C之间的 $SU_{i,c}$ ；

3、如果 $SU_{i,1} \geq SU_{i,c}$ 则证明此特征为冗余特征，在 $S_{list}$ 中剔除该特征，例如剔除 $F_2, F_4$ ；

4、选择当前 $S_{list}$ 中 $SU_{i,c}$ 值最大的特征，此处为 $F_3$ ；（重复步骤1）

5、在 $S_{list}$ 依次选择 $SU_{i,c}$ 值小于主特征的特征 $F_5, F_6$ ，分别比较 $SU_{i,3}$ ， $SU_{i,c}$ ；（重复步骤2）

6、如果 $SU_{i,3} \geq SU_{i,c}$ 则证明此特征为冗余特征，在 $S_{list}$ 中剔除该特征，例如剔除 $F_6$ ；（重复步骤3）

7、选择 $F_5$ 作为主特征，选择特征5。

问题1：为什么要采用SU来代替IG

首先了解一下SU(Symmetrical uncertainty)的定义：

$SU(X,Y)=2[\frac{IG(X|Y)}{H(X)+H(Y)}]$

从定义可以看出SU是信息增益IG归一化的一种形式，当SU=1时，代表X和Y完全相关，就是由X→Y，也可以由Y→X；当SU=0时，可以得到X与Y独立。

由于信息增益IG是一个非归一化的值，其值得范围不确定；另外 $IG(f_i;f_j)$ 与 $IG(f_i;C)$ 之间由于比较的类型不同，不能直接进行比较。采用SU的好处是，将信息增益归一化，可以直接实现 $SU_{i,c}$ 与 $SU_{i,j}$ 的比较。

问题2：为什么当 $\large SU_{j,c}\geq SU_{i,c}$ 且 $\large SU_{i,j}\geq SU_{i,c}$ 时特征 $\large F_i$ 是冗余特征，需要剔除？

首先特征 $F_j$ 是已经选择的主要特征，此时特征 $F_i$ 由于其SU值比 $F_j$ 小，所以与分类C之间 $F_j$ 有更强的相关性。又由于 $SU_{i,j}\geq SU_{i,c}$ ，则说明， $F_i$ 与 $F_j$ 之间的关系是强于 $F_i$ 与C之间的关系的，则说明 $F_j$ 是 $F_i$ 的一个近似马尔可夫毯，就是 $F_i$ 可由 $F_j$ 来近似表达，由于已经选择了 $F_j$ ，所以可以不必选择 $F_i$ 了。

以上只是定性的分析了原理，文章中并未给出具体的证明。

问题3：什么是马尔可夫毯

定义3（特征的Markov毯）：给定特征 $f_i$ ，使特征子集 $MB_i\subset F$ ( $f_i\notin MB_i$ )，当且仅当以下公式满足时，称 $MB_i$ 是特征 $f_i$ 的Markov毯。

$\textbf{P}(F-MB_i-f_i,C|f_i,MB_i)=\textbf{P}(F-MB_i-f_i,C|MB_i)$

意思就是 $f_i$ 的信息完全由马尔可夫毯 $MB_i$ 的确定，那么 $f_i$ 就是冗余信息，在特征选择中可以剔除。

首先对引入Markov blanket(马尔可夫毯)的概念用于定义什么是冗余特征（Redundancy features）。

对于Markov blanket的解析请参照https://blog.csdn.net/jbb0523/article/details/78424522?reload及【何宪. 基于贝叶斯网络的马尔可夫毯发现算法研究[D]. 电子科技大学, 2012.】论文。

简单来说在一个贝叶斯网络中，一个变量的马尔可夫毯就是和其相关得父节点、子节点和配偶节点，该变量的所有信息都包含在其马尔可夫毯内。举个例子就是，如果一个社会当中的人只和自己的亲属有直接关系（贝叶斯网络），那么这个人的信息可以通过其父亲，儿子，和配偶的信息完全确定。

问题4：什么是冗余特征？

定义4（冗余特征）：假设G为当前特征的一个子集，如果特征 $f_i$ 与分类C是弱相关并且在G内可以找到其马尔可夫毯 $MB_i$ ，那么 $f_i$ 应该在G中被移除。

结语

FCBF算法的全称是Fast Correlation-Based Filter即快速相关性滤波算法，其快速性到底体现在哪里呢？

拿mRMR算法来说，其计算公式为 $\max _{x_j\in{X-S_{m-1}}}[I(x_j;c)-\frac{1}{m-1}\sum_{x_i\in S_{m-1}}I(x_i;x_j)]$ ，需要分别计算 $I(x_i,x_j)$ ，总共需要计算 $\frac{m(m-1)}{2}$ 次（其中m为总特征的数量）。其特征复杂度为 $O(m^2)$ 。