差异基因通路富集分析的统计学假设

单细胞转录谱可以根据基因表达水平进行差异分析,通过差异分析,我们可以知道不同分群之间是否存在差异,以及存在显著表达量差异的基因集(DEG,在单细胞Seurat分析流程中,通过Seurat::FindAllMarkers()方法计算得到簇间的过表达差异基因)。进一步,探究这些DEG是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。理解这些DEG所代表的生物学意义的最佳途径就是基因富集分析(Gene Set Enrichment Analysis, GSEA)

1、富集分析的原理

**富集分析(Gene Set Enrichment Analysis, GSEA)**的基本思想是,如果一个生物学过程在当前研究中发生异常,则共同发挥功能的基因被选择出来作为与这一过程相关的基因集是大概率事件。分析比较一种生物学状态的研究群体的【过表达差异基因集】在一通路的富集概率相比在总基因集中【随机抽取的同数目基因集】在该通路的富集概率是否有显著差异,如果有显著差异,则认为该通路对于在当前研究群体是具有意义的。

生物学过程(通路)是受基因表达调控的,一条通路中富集的差异表达基因数目越多,这条通路整体的表达紊乱的可能性就越大。通过富集分析可以用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。

2、富集分析的统计模型-超几何分布型

超几何分布是统计学中的一种离散分布,它描述了由有限总体中抽出n个样本,成功抽出指定种类的样本的个数。 是生物信息学中常用的一种统计分布模型。基因的富集分析就采用这个模型来检验一组基因出现在某个通路的显著性。

2.1超几何分布与二项分布

在概率论中,超几何分布是一个在产品检验和随机抽样中应用广泛的离散概率分布模型。超几何分布与二项分布均基于伯努利试验

二项分布是建立在有放回抽样的基础上的,也就是抽出一个样品测量或处理完后再放回去,然后抽下一个,所以二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立)。但在实际的工作中通常我们很少会这样抽,一般都属于无放回抽样,这时候需要用超几何分布来计算概率。在一般的教课书上都会要求,当总体的容量N不大时,要用超几何分布来计算,如果N很大而n很小,则可以用二项分布来近似计算,也就是可以将无放回抽样近似看出有放回抽样。至于n要小到什么程度,有的书上说n/N小于0.1就可以了,有的书上则要求小于0.05。

总结:二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立),而超几何分布试验是在有限总体中进行无放回抽样(总体数量不断减少),所以每次试验结果发生的概率将发生变化(不放回抽样,每次实验相互影响)。

2.2离散分布中的两个重要函数:

概率质量函数(probability mass function,简称PMF):是离散随机变量X在各特定取值上的概率P(x),其总和为1。与概率密度函数f(x)不同,概率质量函数是对离散随机变量定义的,本身就代表该值的概率;而概率- - 密度函数是对连续随机变量定义的,本身不是概率,它在某区间内的积分才是概率。

  • R语言的概率质量函数求算方法dhyper(k,M,N-M,n):返回一次抽样的成功概率:

####超几何分布的概率质量函数:

累积分布函数(cumulative distribution function, 简称CDF):定义为F(x)=P(X≤x),是单调递增的,且满足:F(-∞)=0和F(+∞)=1。对离散分布而言,它是所有小于等于x的值出现的概率之和。

  • R语言的累积概率函数求算方法phyper(k,M,N-M,n):求解"至多"问题,返回相应的累计概率(超几何分布左尾概率):

3、超几何分布型的假设检验-Fisher’s 精确检验

3.1 关于 Fisher’s test:

Fisher’s test 用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下:随机事件发生的概率小于0.05则认定该事件为小概率事件。一般原则认为在某个假设前提下,一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。

  • 在给定假设(如零假设:事件间无显著相关性)的前提下,对假设事件的出现可能性做统计学检验,p-value越小,越能拒绝原假设。
  • p-value是一种概率:是在原假设为真的前提下,出现该样本或比该样本更极端的结果的概率之和。
3.2 富集分析的一般假设

H0: 已知生物学状态下的研究样本的n个过表达差异基因中富集 m m m个A通路基因的事件是随机事件,说明A通路在该生物学状态下的研究样本中未发生紊乱。
H1: A通路在该生物学状态下的研究样本中发生了紊乱。

3.3 统计学显著性的 p p p值 计算

统计检验的 p p p值( p − v a l u e p-value pvalue)是在原假设为真的前提下计算的比观察事件更极端事件的发生概率。对应离散分布型中的单尾概率或双尾概率。富集分析计算的是超几何分布型的右尾概率

关于 p p p值计算的理解:既然我们需要通过在已知生物学状态下的研究样本的 n n n个DEGs中富集了A通路相关基因的数目来检验A通路在该样本中是否发生紊乱。那么在假设H0为真的前提下,事件(随机在研究样本的基因集中抽取 n n n个基因,其中富集有 ≥ m \geq m m个通路A相关基因)应该是大概率事件,事件的发生概率 p ≥ 95 % p \geq 95\% p95%。所以如果事件(随机在研究样本的基因集中抽取 n n n个基因,其中富集有 ≥ m \geq m m个通路A相关基因)的发生概率 p ≤ 5 % p \leq 5\% p5%,就可以认为在统计假设为真的前提下发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设。

事件(随机在研究样本的基因集中抽取n个基因,其中富集有 ≥ m \geq m m个通路A相关基因) 的发生概率 p p p可以由计算超几何分布型的右尾概率得到, p = 1 − F X ( m ) p=1- F_X(m) p=1FX(m)
超几何分布右尾概率

参考材料
假设检验、P值、假设检验和置信区间的关系 - 知乎 (zhihu.com)
R-概率统计 | 概率分布与假设检验 - 知乎 (zhihu.com)
R统计学(03): 超几何分布 - 知乎 (zhihu.com)
浅探富集分析中的超几何分布 - 简书 (jianshu.com)

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
差异基因分析是一种常用的生物信息学分析方法,用于找出在不同条件下表达量差异显著的基因。在R语言中,可以使用一些常见的包(例如edgeR, DESeq2)进行差异基因分析。 下面是一个使用DESeq2包进行差异基因分析的示例代码: ```R # 导入DESeq2包 library(DESeq2) # 导入原始表达矩阵数据 counts <- read.table("expression_counts.txt", header = TRUE, row.names = 1) # 创建一个DESeq2对象 dds <- DESeqDataSetFromMatrix(countData = counts, colData = coldata, design = ~ condition) # 进行基因表达分析 dds <- DESeq(dds) # 查找差异表达基因 res <- results(dds) # 筛选差异表达基因 sig_genes <- subset(res, padj < 0.05 & abs(log2FoldChange) > 1) # 输出差异表达基因 write.table(sig_genes, file = "differential_genes.txt", sep = "\t", quote = FALSE, col.names = NA) ``` 以上代码中,首先导入DESeq2包,然后读取原始的基因表达量数据,并使用DESeqDataSetFromMatrix函数创建一个DESeq2对象。接下来,使用DESeq函数对基因表达进行分析,并使用results函数查找差异表达基因。最后,通过设置阈值来筛选出差异表达显著的基因,并将结果输出到"differential_genes.txt"文件中。 需要注意的是,该示例只是基础的差异基因分析流程,具体的分析方法和参数设置还需要根据实际情况进行调整。此外,还可以结合一些可视化方法(如绘制热图、富集分析等)进一步探索差异表达基因的生物学功能和通路注释等信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值