原论文:Feature Selection for High-Dimensional Genomic Microarray Data
介绍
基因数据通常具有较高的维度,同时可用样本数少。不到100例维度为7000+的带标签的基因表达数据,如何对其建立分类模型?或者如何减少特征维度?
通常,相比对高维数据直接建模,先减少特征维度后建模的方法具有更好的评估表现。
论文提出了使用特征筛选的方法,该特征筛选包含三个阶段:非条件的单因素混合高斯建模,计算信息增益,Markov Blanket筛选。最终筛选出对目标变量有显著影响的特征。
下面将重点介绍这三个处理方法。更多细节可查看原论文。
1. Unconditional Mixture Modeling
首先,假设基因表达量的活动可以看作【off/on】两种状态下的活动。所以基于这个假设,我们可以将基因表达水平想象为一个含有两个分量的高斯混合模型(off状态下的表达水平,on状态下的表达水平): P ( f i ∣ θ i ) P(f_i|\theta_i) P(fi∣θi), f i f_i fi表示第 i i i基因的表达量,是一个连续型变量, θ \theta θ表示模型的参数,包括均值,标准差,分量选择的概率分布。
我们可以使用EM算法估计模型参数,得到关于基因表达量的高斯混合模型。
假设上述的高斯混合模型准确地描述了基因表达量的概率分布的话,那么这个模型的贝叶斯误差率则为:
1 N ( ∑ j : z j = 0 P ( z j = 1 ∣ x j , θ ) + ∑ j : z j = 1 P ( z j = 0 ∣ x j , θ ) ) \frac{1}{N}(\sum_{j\ :\ z_j=0}P(z_j=1|x_j,\theta)+\sum_{j\ :\ z_j=1}P(z_j=0|x_j,\theta)) N1(∑j : zj=0P(zj=1∣xj,θ)+∑j : zj=1P(zj=0∣x