目录
本文旨在介绍Bracken的校正kraken2丰度的原理。另外要注意的是, A b u n d S i Abund_{S_i} AbundSi 这里求得的是read数量,Bracken并没有考虑基因组长度。
1.基本概念介绍
1.1 k-mers(有基础的朋友可以不看)
k-mers就是按一定长度作为最小单元,对序列打断。
1.2 kraken2丰度结果格式(重要)
kraken2丰度结果的为什么需要校正:
当read比对到 Tf 和 Ts 的基因组共有区域时,kraken2会将read分配给最近公共祖先LCA(Lowest Common Ancestor),也就是Tannerella和其他属。所以,要估计 Tf 和 Ts 的丰度,我们要知道Tannerella和其他属的level_reads中有多少read是属于 Tf 和 Ts 的。
2.基于贝叶斯的方法(理论基础)
2.1.问题及数学描述
求:S1和S2的丰度?
需要解决的问题是:有一部分read属于S1或S2,但被分配给了G1,G2。
假设:
事件 S i S_i Si:属于 S i S_i Si的reads;
事件 G j G_j Gj:被kraken2分配给 G j G_j Gj的read;
A b u n d S i Abund_{S_i} AbundSi: S i S_i Si的丰度;
m:属于 S i S_i Si的一部分read被kraken2分配给m个 G j Gj Gj;
l e v e l r e a d s G j levelreads_{G_j} levelreadsGj :被kraken2分配给 G j G_j Gj的独有read,例如,Tannerella的levelreads = 26;
a l l r e a d s S i allreads_{S_i} allread