关于泊松分布在测序原理中的解释

最新推荐文章于 2022-07-27 19:14:32 发布

miaoyibosysu

最新推荐文章于 2022-07-27 19:14:32 发布

阅读量1.5k

点赞数 1

分类专栏：统计学文章标签：概率论

本文链接：https://blog.csdn.net/miaoyibo12/article/details/121789726

版权

25 篇文章 5 订阅

订阅专栏

首先泊松分布描述的是：一个时间段或一个区间内某事件发生次数的概率。

公式是：
$f(x)=\frac{u^xe^{-u}}{x!}$
其中x指的是事件发生的次数，u是事件在一个区间发生次数的期望值或均值，f(x)代表事件发生x次的概率。

测序原理有利用到泊松分布，那么测序中，“时间”或者“区间” 指的什么？“事件” 又是指的什么？

按我理解：

假设一个基因测了100次，每次拿到的序列称为区间，这个基因某个位点在这100个区间中出现的次数服从泊松分布

或

假设一个序列测了N次，得到N个区间，某个位点或任一位点在这N个区间发生（出现）的次数服从泊松分布

假设某个基因的长度是500(bp)，如果经过测序拿到的序列长度是1000,那么我们有一个问题：

这1000个碱基覆盖了多少目标基因？

首先，我们需要找到泊松分布中的事件在这里指的什么？

假设这个基因中有一个位点叫a，事件其实就是：

任意序列区间中，a是否出现（发生）。

我们要求的问题就是：

在这1000的序列中，a出现至少1次的概率

这样，泊松公式需要的参数我们很容易就能拿到：

1.期望值

我们期望这1000个碱基中，a位点出现的次数，应该是2，因为最理想的情况是基因每个碱基都被测了2次

期望值u=1000/500=2

2.事件发生的次数

泊松公式需要指定具体的次数，我们要求至少1次发生，那么可以先求发生0次的概率

次数x=0

那么最终结果就是：

1-f(x)

也就是，a位点在这1000个碱基里至少出现1次的概率是1-f(x)

因为a位点可以是基因任一一个位点，所以结果就可以描述成：

任一位点在这1000个碱基里至少出现1次的概率是多少

可以解释为

覆盖度（严格来说，应该是1-f(x)的500次方）

根据公式，我们知道：

当x=0时
$f(x)=e^{-u}$
即任一位点至少出现1次的概率为：
$P(X\geq1)=1-f(x)=1-e^{-u}$
所以，u越大，P就越大，换算成测序中的说法就是，对于同一个目标序列，深度越大，结果越准确。

关注

专栏目录