ConsensusClusterPlus根据基因表达量对样品进行分类

该博客介绍了如何利用R语言中的ConsensusClusterPlus包,基于基因表达量数据对生物样品进行一致聚类分析。通过中位数中心化处理数据,选择差异较大的基因,并设置不同参数进行重抽样,以确定稳定的样本分类。结果包括聚类矩阵、聚类树和信息准则(ICL)评估,以识别可靠的亚群分类和标签基因。
摘要由CSDN通过智能技术生成

#http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2881355/

一致聚类方法,采用重抽样方法来验证聚类合理性。

library(ALL)
data(ALL)
d=exprs(ALL)
d[1:5,1:5]

#对上面这个芯片表达数据我们一般会简单的进行normalization (本次采用中位数中心化),然后取在各个样品差异很大的那些gene或者探针的数据来进行聚类分析

mads=apply(d,1,mad)# mad(x) 绝对中位数差 按行(1)取d数据的中位数

d=d[rev(order(mads))[1:5000],]
#去除前5000个数据
d = sweep(d,1, apply(d,1,median,na.rm=T))
#按行减去中位数,r语言中使用sweep(x, MARGIN, STATS, FUN="-", ...) 对矩阵进行运算。MARGIN为1,表示行的方向上进行运算,
#为2表示列的方向上运算。STATS是运算的参数。FUN为运算函数,默认是减法。

library(ConsensusClusterPlus)
title=tempdir()
results = ConsensusClusterPlus(d,maxK=6,reps=50,pItem=0.8,pFe

基因表达差异显著性检验模型的建立是基于基因表达数据的统计分析方法之一。常用的方法有t检验、方差分析(ANOVA)、Wilcoxon秩和检验等。 其中,对于基因表达FPKM(Fragments Per Kilobase of transcript per Million mapped reads)的差异显著性检验,一种常见的方法是使用t检验。具体步骤如下: 1. 数据预处理:对原始表达矩阵进行数据清洗、归一化等处理,确保数据符合统计分析的要求。 2. 样本分组:根据实验设计和研究目的,将样本分为不同的组别,比如对照组和处理组。 3. 假设检验:对每个基因进行t检验,比较两组样本的平均表达是否存在显著差异。假设检验的零假设为两组样本的均值相等,备择假设为两组样本的均值不相等。 4. 多重检验校正:由于基因表达数据中存在大的假阳性和假阴性结果,需要进行多重检验校正。常用的方法有Bonferroni校正、Benjamini-Hochberg校正等。 5. 结果解读:根据差异显著性检验的结果,筛选出具有显著差异的基因,进一步进行生物学意义的分析和解读。 需要注意的是,差异显著性检验模型的建立还需要考虑其他因素,如批次效应、样本匹配等,以提高统计分析的可靠性和准确性。此外,还可以使用其他的统计方法和机器学习算法,如方差稳定化变换、差异表达基因分析等,来完成基因表达的差异显著性分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值