【论文笔记】高维基因数据中的特征选择

原论文:Feature Selection for High-Dimensional Genomic Microarray Data

介绍

基因数据通常具有较高的维度,同时可用样本数少。不到100例维度为7000+的带标签的基因表达数据,如何对其建立分类模型?或者如何减少特征维度?

通常,相比对高维数据直接建模,先减少特征维度后建模的方法具有更好的评估表现。

论文提出了使用特征筛选的方法,该特征筛选包含三个阶段:非条件的单因素混合高斯建模,计算信息增益,Markov Blanket筛选。最终筛选出对目标变量有显著影响的特征。

下面将重点介绍这三个处理方法。更多细节可查看原论文。

1. Unconditional Mixture Modeling

首先,假设基因表达量的活动可以看作【off/on】两种状态下的活动。所以基于这个假设,我们可以将基因表达水平想象为一个含有两个分量的高斯混合模型(off状态下的表达水平,on状态下的表达水平): P ( f i ∣ θ i ) P(f_i|\theta_i) P(fiθi) f i f_i fi表示第 i i i基因的表达量,是一个连续型变量, θ \theta θ表示模型的参数,包括均值,标准差,分量选择的概率分布。

我们可以使用EM算法估计模型参数,得到关于基因表达量的高斯混合模型。

假设上述的高斯混合模型准确地描述了基因表达量的概率分布的话,那么这个模型的贝叶斯误差率则为:

1 N ( ∑ j   :   z j = 0 P ( z j = 1 ∣ x j , θ ) + ∑ j   :   z j = 1 P ( z j = 0 ∣ x j , θ ) ) \frac{1}{N}(\sum_{j\ :\ z_j=0}P(z_j=1|x_j,\theta)+\sum_{j\ :\ z_j=1}P(z_j=0|x_j,\theta)) N1(j : zj=0P(zj=1xj,θ)+j : zj=1P(zj=0x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值