Bracken丰度校正原理

本文详细阐述了Bracken校正kraken2丰度的原理,重点介绍了基于贝叶斯方法的理论基础,包括如何计算P(Gj)、P(Gj∣Si)和P(Si),以解决read分配误差导致的丰度不准确问题。
摘要由CSDN通过智能技术生成

本文旨在介绍Bracken的校正kraken2丰度的原理。另外要注意的是, A b u n d S i Abund_{S_i} AbundSi 这里求得的是read数量,Bracken并没有考虑基因组长度。

1.基本概念介绍

1.1 k-mers(有基础的朋友可以不看)

  k-mers就是按一定长度作为最小单元,对序列打断。

图1

1.2 kraken2丰度结果格式(重要

  kraken2丰度结果的为什么需要校正:
  当read比对到 Tf 和 Ts 的基因组共有区域时,kraken2会将read分配给最近公共祖先LCA(Lowest Common Ancestor),也就是Tannerella和其他属。所以,要估计 Tf 和 Ts 的丰度,我们要知道Tannerella和其他属的level_reads中有多少read是属于 Tf 和 Ts 的。

图2

2.基于贝叶斯的方法(理论基础)

2.1.问题及数学描述

求:S1和S2的丰度?

需要解决的问题是:有一部分read属于S1或S2,但被分配给了G1,G2。

假设:
事件 S i S_i Si:属于 S i S_i Si的reads;
事件 G j G_j Gj:被kraken2分配给 G j G_j Gj的read;
A b u n d S i Abund_{S_i} AbundSi S i S_i Si的丰度;
m:属于 S i S_i Si的一部分read被kraken2分配给m个 G j Gj Gj
l e v e l r e a d s G j levelreads_{G_j} levelreadsGj :被kraken2分配给 G j G_j Gj的独有read,例如,Tannerella的levelreads = 26;
a l l r e a d s S i allreads_{S_i} allread

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值