ConsensusClusterPlus根据基因表达量对样品进行分类

aorong2257

于 2016-09-12 15:14:00 发布

阅读量4.4k

点赞数 1

文章标签：人工智能 r语言

原文链接：http://www.cnblogs.com/qiniqnyang/p/5864871.html

版权

该博客介绍了如何利用R语言中的ConsensusClusterPlus包，基于基因表达量数据对生物样品进行一致聚类分析。通过中位数中心化处理数据，选择差异较大的基因，并设置不同参数进行重抽样，以确定稳定的样本分类。结果包括聚类矩阵、聚类树和信息准则（ICL）评估，以识别可靠的亚群分类和标签基因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2881355/

一致聚类方法，采用重抽样方法来验证聚类合理性。

library(ALL)
data(ALL)
d=exprs(ALL)
d[1:5,1:5]

#对上面这个芯片表达数据我们一般会简单的进行normalization （本次采用中位数中心化），然后取在各个样品差异很大的那些gene或者探针的数据来进行聚类分析

mads=apply(d,1,mad)# mad(x) 绝对中位数差按行（1）取d数据的中位数

d=d[rev(order(mads))[1:5000],]
#去除前5000个数据
d = sweep(d,1, apply(d,1,median,na.rm=T))
#按行减去中位数，r语言中使用sweep(x, MARGIN, STATS, FUN="-", ...) 对矩阵进行运算。MARGIN为1，表示行的方向上进行运算，
#为2表示列的方向上运算。STATS是运算的参数。FUN为运算函数，默认是减法。

library(ConsensusClusterPlus)
title=tempdir()
results = ConsensusClusterPlus(d,maxK=6,reps=50,pItem=0.8,pFe

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。