基因特征的选择

最新推荐文章于 2024-07-31 19:32:40 发布

harderharder

最新推荐文章于 2024-07-31 19:32:40 发布

阅读量2.6k

点赞数 1

分类专栏：数据挖掘与R语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29258361/article/details/80151541

版权

数据挖掘与R语言专栏收录该内容

4 篇文章 0 订阅

订阅专栏

特征选择的方法有两种：

1）过滤方法，应用变量的统计特征来选择最终的特征集合

应用的例子为，12625行特征，94列样本。目前要处理的问题是，对于样本来说特征太多了，这种大维度的数据，大多数的建模技术很难获得有意义的结果，所以首先要降低变量的数量，得到每个特征在所有样本上的总体分布情况。

第一种方法：用中位数和四分位距（IQR）表示这些特征的分布，R包中Biobase科技计算矩阵中每行向量的中位数，rowQ(）得到每行向量的四分位数，计算第一个四分位数和第三个四分位数，得到25%-75%的数据，大量特征的变动性很小，IQR接近于0,这种特征我们认为他不能很好的区分不同的类型，这个时候一定要单独考虑每个特征的情况，因为我们不排除有的特征本身就是在所有样本上有很少变化。

PS：如果用IQR的方法，选取的阈值一般是变动性小于IQR的1/5的特征，R中包genefilter可以处理这种过滤情况。

第二种方法：比较同一类别样本条件下的特征的均值，称为用因子分析（ANOVA）来比较。ANOVA可以用来比较多于两个组的均值，给出统计显著性水平，如果是TRUE，说明这个特征是有用的。R中genefilter包可以处理这个问题。

第三种方法：用随机森林进行过滤，先获取特征的名称，用随机森林，得到特征对分类任务有用程度的排序。选择前若干个。

第四种方法：用特征聚类的算法，假设每个类中的特征都是现实的，用距离来衡量特征之间的关系，R包Hmic可以实现数据集变量的方法，将特征进行聚类，检查每个组中有多少特征，可以在每个组中随机选取一个特征来构成预测特征集合，因为默认每个簇中的变量是相似的。

2）封装方法，通过迭代方法找到最适合应用的数据挖掘模型的变量子集。

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。