生物信息学基本知识笔记

最新推荐文章于 2025-03-26 09:33:04 发布

TIME_@

最新推荐文章于 2025-03-26 09:33:04 发布

阅读量2.5k

点赞数 1

分类专栏：生物信息文章标签：大数据

本文链接：https://blog.csdn.net/geekfocus/article/details/104430344

版权

生物信息专栏收录该内容

50 篇文章

订阅专栏

Bam文件

SAM（The Sequencing Alignment/Map Format）是bwa比对软件的标准输出文件，是纯文本文件，bwa的开发者设计了一种比gz更加高效的压缩算法，BAM的文件大小差不多只有原来的1/6。
header头文件
@HD是必须的标准头文件；@SQ参考序列染色体信息，顺序必须和参考序列一致；@RG重要Read group信息，通常包含测序平台测序文库和样本id等信息；@PG有用的操作过程和参数信息。@RG在做后续数据分析时专门用于区分不同样本的重要信息。它的重要性还体现在，如果原来样本的测序深度比较深，一般会按照不同的lane分开比对，最后再合并在一起，那么这个时候你会在这个BAM文件中看到有多个RG，里面记录了不同的lane，甚至测序文库的信息，唯一不变的一定是SM的sample信息，这样合并后才能正确处理。
record

CIGAR中的M，不能觉得它代表的是匹配就以为是百分百没有任何miss-match，多态性碱基或者单碱基错配也是用M标记！

MAPQ（mapping quality）值大于30就意味着错比概率低于0.001.
疑问为什么自己做分析结果里MAPQ部分为0，mate信息第三个值为负？

MAPQ为0的multiple mapping由于其不可靠性都舍弃

在使用bwa这个软件来把测序数据比对到参考基因组的时候并没有加上-a这个参数，那么输出的sam文件里面，bwa会对每一个有multiple mapping情况的reads的MAPQ值设置为0，所以提multiple mapping的reads是非常容易的。
一些软件在根据bam文件来选择变异位点的时候会忽略掉这些mapping quality为0的reads。
也就是说对于这部分软件来说，这些mapping quality为0的reads是没有用的，相当于损失掉了，假设整体基因组的覆盖深度是很平均的，那这些MAPQ为0的位置的覆盖深度相当于降低了。这很有可能影响SNV位点的可信度。
那有multiple mapping情况的reads都集中在基因组的哪些区域呢？在哪些基因附近呢？
我们可以先用公司提供的bam文件提取出MAPQ为0的reads[里面包含大多数 multiple reads]，看一下大致的分布，后面再用我自己比对得到的bam作进更加准确的分析。

Mateinfo：mate 序列所在参考序列的名称；mate 序列在参考序列上的位置；估计出的片段的长度，当mate 序列位于本序列上游时该值为负值。
在这里插入图片描述

samtools index in.bam  # 生成in.bam的索引文件in.bam.bai
samtools view in.bam chr22            # 跳转到chr22染色体
samtools view in.bam chr22:16050103   # 跳转到chr22:16050103位置
samtools view in.bam chr22:16050103-16050103  # 只查看该位置
samtools view -h in.bam chr22:16050103-16050203 | samtools view -Sb - > small.bam 
samtools tview --reference hg38.fa in.bam  #该模式下，按下键盘‘g’后，会跳出一个Goto框