DEseq2 差异分析基本原理

最新推荐文章于 2025-02-27 15:30:10 发布

心如止水-WTF

最新推荐文章于 2025-02-27 15:30:10 发布

阅读量1.2w

点赞数 8

文章标签：概率论数据挖掘机器学习数据分析经验分享

本文链接：https://blog.csdn.net/qq_28723681/article/details/124914014

版权

DEseq简介

寻找组间显著表达变化的基因，以解释基因表达水平的变化对生物功能的变化最直接的办法就行进行转录组测序和定量。那如何从不同组定量的转录组寻找到那些显著差异的基因呢？DESeq 就是来解决这个问题的，它主要使用负二项分布的模型来进行差异分析。DESeq2是DEseq的升级版，但是DEseq2只适用于有生物学重复的试验，而DEseq既可以做有生物学重复也可以做无重复（或部分重复的）试验。

2. DEseq2的差异分析原理

2.1 统计模型：负二项分布

所谓的差异分析实际上是指通过假设检验来判断两组数据是否存在显著差异，有参数检验（总体分布已知）和非参数检验（总体分布未知）两种方式，显然，对于分布已知的数据，运用参数检验的结果会更准确些。因此在进行表达差异分析的时候，我们会假定表达数据符合某一个特定的分布，然后在使用参数检验的方式进行假设检验。
那么，表达数据（read counts）应该是一个什么样的分布呢？首先read counts本质是数目值，是一个离散的非零整数，其分布应该是离散型分布，其次，对于测序数据往往是n很大，p很小的分布，因此学术界常用泊松分布和负二项分布来描述。事实上，早期确实有人使用泊松分布来进行差异分析，不过后续发现基因的read counts的均值和方差并不是相等的（如下图示），这并不符合泊松分布均值和方差是相等的规律，因此发展至今，负二项分布成为差异分析的主要分布模型。

在这里插入图片描述