samtools flagstat 统计结果的理解

该文提供了基因测序的数据分析,包括总reads数、比对情况、PE读对的统计,如正确配对、单端未配对和跨染色体配对的reads数,揭示了高比例的正确配对和低重复率。
14608455 + 0 in total (QC-passed reads + QC-failed reads)     ## reads总数
37967 + 0 secondary                      ##出现比对到参考基因组多个位置的reads数
0 + 0 supplementary                      ##可能存在嵌合的reads
0 + 0 duplicates                         ##重复的reads数
14590894 + 0 mapped (99.88% : N/A)       ##比对到参考基因组上的reads数
14570488 + 0 paired in sequencing        ##属于PE read的reads总数。
7285244 + 0 read1                        ##PE read中Read 1 的reads 总数。
7285244 + 0 read2                        ##PE read中Read 2 的reads 总数。
14507068 + 0 properly paired (99.56% : N/A)       ##完美比对的reads总数。PE两端reads比对到同一条序列,且根据比对结果推断的插入片段大小符合设置的阈值。
14551500 + 0 with itself and mate mapped       ##PE两端reads都比对上参考序列的reads总数。
1427 + 0 singletons (0.01% : N/A)        ##PE两端reads,其中一端比上,另一端没比上的reads总数。
26260 + 0 with mate mapped to a different chr      ##PE read中,两端分别比对到两条不同的序列的reads总数。
17346 + 0 with mate mapped to a different chr (mapQ>=5)       ##PE read中,两端分别比对到两条不同的序列,且mapQ>=5的reads总数。

### 三、Samtools flagstat 输出结果解读 `Samtools flagstat` 是一个用于快速统计 BAM 文件中比对信息的命令,其输出结果以简洁的文本形式展示,涵盖了比对率、双端测序配对情况、QC状态等关键指标。以下是对典型输出结果的逐项解析: #### 3.1 总体比对率 输出中通常以类似如下形式展示: ``` 1000000 + 0 in total (QC-passed reads + QC-failed reads) ``` 该行表示输入文件中总共的 reads 数量,其中第一部分为通过 QC 的 reads,第二部分为未通过 QC 的 reads。该统计基于 SAM/BAM 文件中的 flag 信息进行计算[^2]。 #### 3.2 比对状态统计 ``` 900000 + 0 mapped (90.00%) ``` 该行表示成功比对到参考基因组的 reads 数量及其占总 reads 的比例。其中,比对的定义是 reads 的比对位置有效,而不是未比对状态(flag 0x4 未设置)[^5]。 #### 3.3 双端测序配对情况 ``` 500000 + 0 paired in sequencing ``` 该行表示在测序阶段为双端(paired-end)测序的 reads 数量,适用于双端测序数据。随后通常会继续输出如下内容: ``` 250000 + 0 read1 250000 + 0 read2 ``` 分别表示双端测序中的第一个 read(read1)和第二个 read(read2)的数量,二者之和应等于双端测序的总 reads 数量。 #### 3.4 配对比对情况 ``` 450000 + 0 properly paired (90.00%) ``` 该行表示正确配对的 reads 数量及其占比。正确配对是指 reads 成功比对到参考基因组且方向和距离符合预期(flag 0x2 设置)。 #### 3.5 比对到正负链的情况 ``` 475000 + 0 with itself and mate mapped ``` 该行表示 reads 及其配对 mate 均成功比对的情况,适用于双端测序数据。随后可能会输出如下内容: ``` 25000 + 0 singletons (5.00%) ``` 表示 reads 本身比对成功,但其配对 mate 未比对成功的情况(flag 0x8 设置)。 #### 3.6 重叠区域统计 ``` 10000 + 0 with mate mapped to a different chr ``` 该行表示 reads 的配对 mate 比对到不同染色体的情况(flag 0x10 设置),可能提示结构变异或嵌合体等复杂情况。 #### 3.7 QC 状态统计 ``` 990000 + 1000 QC-passed + QC-failed ``` 该行表示通过 QC 的 reads 和未通过 QC 的 reads 数量。QC 未通过的 reads 通常是由于测序质量过低、接头污染等问题导致的。 --- ### 示例输出 以下是一个完整的 `samtools flagstat` 输出示例: ``` 1000000 + 0 in total (QC-passed reads + QC-failed reads) 900000 + 0 mapped (90.00%) 500000 + 0 paired in sequencing 250000 + 0 read1 250000 + 0 read2 450000 + 0 properly paired (90.00%) 475000 + 0 with itself and mate mapped 25000 + 0 singletons (5.00%) 10000 + 0 with mate mapped to a different chr 990000 + 1000 QC-passed + QC-failed ``` --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值