生信分析进阶4 - 比对结果的FLAG和CIGAR信息含义与BAM文件指定区域提取

本文介绍了BAM文件的比对信息,特别是FLAG和CIGAR字段,详细解析了它们的含义。FLAG用于表示read的比对状态,CIGAR字符串则直观展示比对细节。此外,还讲述了如何使用samtools view提取BAM文件的特定区域,以及生信分析进阶的相关资源。
摘要由CSDN通过智能技术生成

BAM文件时存储比对数据的常用格式,可用于短reads和长reads数据。BAM是二进制压缩格式,SAM文件为其纯文本格式,CRAM为BAM的高压缩格式,IO效率相比于BAM略差,但是占用存储空间更小。

1. BAM文件的比对信息

BAM的核心信息-record(也叫alignment section,比对信息), 记录序列比对内容,每一行都是一条read比对信息,各部分内容如下图所示:

record比对信息各部分内容含义:
record各部分内容含义

2. 比对信息关键内容 FLAG和CIGAR

2.1 FLAG

FLAG记录了read的比对情况,FLAG信息使用数字来表示比对结果,比如77,163等,其中77 = 1 + 4 + 8 + 64, 163 = 1 + 2 + 32 + 128, 其中相加使用的数据含义如下表所示:

比如163数据可以理解为:

PE测序reads + 正常比对上参考序列 + 另一条配对reads反向互补后比对到参考序列 + 该序列是read2
在这里插入图片描述

2.2 CIGAR

CIGAR全称Compact Idiosyncratic Gapped Alignment Report, 称为“雪茄”字符串。CIAGR相比对FLAG更容易理解,使用数字+字母组合表示reads的比对情况,比如,一条150bp长的read比对到基因组之后,假如CIGAR字符串内容为:33S117M,其意思是说在比对的时候这条read开头的33bp在被跳过了(S),紧接其后的117bp则比对上了参考序列(M), 其中S代表软跳过(Soft clip),M代表匹配(Match)

CIGAR标记字符共有10个: “MIDNSHP=XB”,具体分别代表read比对时的情况如下图所示:

特别注意M标记字符,其并非100%全部匹配,单碱基的错配也会标记为M。
CIGAR

3. samtools view查看指定BAM文件指定区域

对于BAM文件的查看可使用samtools。

# 生成索引文件
samtools index sample.sorted.bam

# 跳转到chr22染色体
samtools view sample.sorted.bam chr22 

# 跳转到chr22:16050000位置
samtools view sample.sorted.bam chr22:16050000

# 跳转到chr22:16050000-16060000位置
samtools view sample.sorted.bam chr22:16050000-16060000

4. samtools view提取BAM文件指定染色体区域

对于bam文件过大,可以提取指定区域并生成小的bam文件,导出后再IGV进行查看。

# 提起chr22区域,并输出为bam格式
# —h 表示包含header信息
samtools view -h sample.sorted.bam chr22:16050000-16060000|\
samtools view -Sb - > chr22.region.bam

# 查看bam
samtools view chr22.region.bam|less -S

bam查看截图

生信分析进阶文章推荐

生信分析进阶1 - HLA分析的HLA区域reads提取及bam转换fastq

生信分析进阶2 - 利用GC含量的Loess回归矫正reads数量

生信分析进阶3 - pysam操作bam文件统计unique reads和mapped reads高级技巧合辑

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值