【论文笔记】高维基因数据中的特征选择

最新推荐文章于 2024-07-27 12:48:21 发布

yuukilp

最新推荐文章于 2024-07-27 12:48:21 发布

阅读量4.7k

点赞数 4

分类专栏： papers notes 论文笔记文章标签：机器学习数据降维高维数据特征选择

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014686462/article/details/83279946

版权

原论文：Feature Selection for High-Dimensional Genomic Microarray Data

介绍

基因数据通常具有较高的维度，同时可用样本数少。不到100例维度为7000+的带标签的基因表达数据，如何对其建立分类模型？或者如何减少特征维度？

通常，相比对高维数据直接建模，先减少特征维度后建模的方法具有更好的评估表现。

论文提出了使用特征筛选的方法，该特征筛选包含三个阶段：非条件的单因素混合高斯建模，计算信息增益，Markov Blanket筛选。最终筛选出对目标变量有显著影响的特征。

下面将重点介绍这三个处理方法。更多细节可查看原论文。

1. Unconditional Mixture Modeling

首先，假设基因表达量的活动可以看作【off/on】两种状态下的活动。所以基于这个假设，我们可以将基因表达水平想象为一个含有两个分量的高斯混合模型（off状态下的表达水平，on状态下的表达水平）： $P(f_i|\theta_i)$ ， $f_i$ 表示第 $i$ 基因的表达量，是一个连续型变量， $\theta$ 表示模型的参数，包括均值，标准差，分量选择的概率分布。

我们可以使用EM算法估计模型参数，得到关于基因表达量的高斯混合模型。

假设上述的高斯混合模型准确地描述了基因表达量的概率分布的话，那么这个模型的贝叶斯误差率则为：

$\frac{1}{N}(\sum_{j\ :\ z_j=0}P(z_j=1|x_j,\theta)+\sum_{j\ :\ z_j=1}P(z_j=0|x_j,\theta))$

最低0.47元/天解锁文章

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。