微信公众号:生信小知识
关注可了解更多的教程及单细胞知识。问题或建议,请公众号留言;
5. 比对结果的质控
内容目录
前言检查数据工具1. samtools stats遇到的bug结果解释工具2. qualimap结果解释1. Globals部分2. ACGT Content (inside of regions)3. Coverage (inside of regions)4. Mapping Quality (inside of regions)5. 关于插入片段的测序长度后记
前言
放上原始教程:https://www.yuque.com/biotrainee/wes
之前系列笔记:
1. 搭建WES的分析环境
2. 文献阅读及数据下载
3. 质控与去接头
4. 比对与 bam 文件格式
下面进入今天的学习——比对结果的质控
检查数据
我们得到了 bam 文件之后,也要进行质控,可以对测序数据有更深入的理解。首先,我们先看看跑完比对后的bam文件大小:
$ ls -lsh *bam | awk -F" " '{print $1,$NF}'
12G case1_biorep_A_techrep_1.bam
11G case1_biorep_B.bam
13G case1_biorep_C.bam
4.9G case1_germline.bam
11G case1_techrep_2.bam
9.3G case2_biorep_A.bam
11G case2_biorep_B_techrep_1.bam
9.2G case2_biorep_C.bam
3.4G case2_germline.bam
8.9G case2_techrep_2.bam
13G case3_biorep_A.bam
12G case3_biorep_B.bam
6.5G case3_biorep_C_techrep_1.bam
4.9G case3_germline.bam
9.1G case3_techrep_2.bam
12G case4_biorep_A.bam
13G case4_biorep_B_techrep_1.bam
12G case4_biorep_C.bam
5.0G case4_germline.bam
12G case4_techrep_2.bam
9.5G case5_biorep_A.bam
9.3G case5_biorep_B_techrep_1.bam
4.1G case5_biorep_C.bam
7.4G case5_germline.bam
11G case5_techrep_2.bam
5.1G case6_biorep_A_techrep_1.bam
6.4G case6_biorep_B.bam
6.4G case6_biorep_C.bam
4.9G case6_germline.bam
11G case6_techrep_2.bam
这里可以看到我们以一种比较节省空间的bam格式来存储,每个样本还是可以达到10G以上,而所有作为正常对照的数据相对较小,但是也有4G左右。
接下来我们用不同的工具来做质控。
工具1. samtools stats
关于samtools的一些常用命令的总结:
https://www.cnblogs.com/xiaofeiIDO/p/6805373.html
这里我们用到的samtools stats
工具作用:对bam
文件做详细统计,其统计结果可用mics/plot-bamstats作图。
将下面代码写入到stats.sh
脚本文件中:
conda activate wes
cd ~/wes_cancer/project/4.align/stats/
## stats.sh<