关于泊松分布在测序原理中的解释

首先泊松分布描述的是:一个时间段或一个区间内某事件发生次数的概率。

公式是:
f ( x ) = u x e − u x ! f(x)=\frac{u^xe^{-u}}{x!} f(x)=x!uxeu
其中x指的是事件发生的次数,u是事件在一个区间发生次数的期望值或均值,f(x)代表事件发生x次的概率。

测序原理有利用到泊松分布,那么测序中,“时间”或者“区间” 指的什么?“事件” 又是指的什么?

按我理解:

一句话描述:
假设一个基因测了100次,每次拿到的序列称为区间,这个基因某个位点在这100个区间中出现的次数服从泊松分布

假设一个序列测了N次,得到N个区间,某个位点或任一位点在这N个区间发生(出现)的次数服从泊松分布
具体解释:

假设某个基因的长度是500(bp),如果经过测序拿到的序列长度是1000,那么我们有一个问题:

这1000个碱基覆盖了多少目标基因?

首先,我们需要找到泊松分布中的事件在这里指的什么?

假设这个基因中有一个位点叫a,事件其实就是:

任意序列区间中,a是否出现(发生)。

我们要求的问题就是:

在这1000的序列中,a出现至少1次的概率

这样,泊松公式需要的参数我们很容易就能拿到:

1.期望值

我们期望这1000个碱基中,a位点出现的次数,应该是2,因为最理想的情况是基因每个碱基都被测了2次

期望值u=1000/500=2

2.事件发生的次数

泊松公式需要指定具体的次数,我们要求至少1次发生,那么可以先求发生0次的概率

次数x=0

那么最终结果就是:

1-f(x)

也就是,a位点在这1000个碱基里至少出现1次的概率是1-f(x)

因为a位点可以是基因任一一个位点,所以结果就可以描述成:

任一位点在这1000个碱基里至少出现1次的概率是多少

可以解释为

覆盖度(严格来说,应该是1-f(x)的500次方)

根据公式,我们知道:

当x=0时
f ( x ) = e − u f(x)=e^{-u} f(x)=eu
即任一位点至少出现1次的概率为:
P ( X ≥ 1 ) = 1 − f ( x ) = 1 − e − u P(X\geq1)=1-f(x)=1-e^{-u} P(X1)=1f(x)=1eu
所以,u越大,P就越大,换算成测序中的说法就是,对于同一个目标序列,深度越大,结果越准确。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值