GATK BQSR-碱基质量矫正

什么是碱基质量矫正?
碱基质量分数是测序机器对每个碱基误差的估计值;它们表示机器每次调用正确碱基的信心程度。例如,假设机器读取了一个 A 核苷酸,并给出了 Q20 的质量分数–按照 Phred 标度,这意味着它有 99% 的把握正确识别出该碱基。
然而,机器产生的分数会受到各种系统性(非随机)技术误差的影响,导致数据中的碱基质量分数被高估或低估。这些误差有些是由于测序反应的物理或化学原理造成的,有些可能是由于设备的制造缺陷造成的。
基础质量得分重新校准(BQSR)是我们应用机器学习对这些误差进行经验建模并相应调整质量得分的过程。

运行代码:

gatk BaseRecalibrator
-R hg19.fa
-I Sample.bam
--known sites 1000G_phase1.indels.hg19.vcf.gz
--known sites Mills_and_1000G_gold_standard.indels.hg19.vcf.gz
--known sites dbsnp_151.vcf.gz
-O Sample_Q_value.table

运行结果:
这张表格包含了每个读取组和原始质量分数的经验质量分数,适用于错配、插入和删除

#:GATKTable:false:6:274:%s:%s:%s:%.4f:%d:%d:;
#:GATKTable:RecalTable1:
ReadGroup QualityScore EventType EmpiricalQuality Observations Errors
SRR032767 49 M 33.7794 9549 3
SRR032769 49 M 36.9975 5008 0
SRR032764 49 M 39.2490 8411 0
SRR032766 18 M 17.7397 16330200 274803
SRR032768 18 M 17.7922 17707920 294405
SRR032764 45 I 41.2958 2919572148 216637
SRR032765 6 M 6.0600 3401801 842765
SRR032769 45 I 41.5828 2850110574 197959
SRR032764 6 M 6.0751 4220451 1041946
SRR032767 45 I 41.5192 2820040026 198762
SRR032769 6 M 6.3481 5045533 1169748
SRR032768 16 M 15.7681 12427549 329283
SRR032766 16 M 15.8173 11799056 309110
SRR032764 16 M 15.9033 13017244 334343
SRR032769 16 M 15.8042 13817386 363078

QualityScore(质量分数)代表的是测序仪器在初始测序时为每个碱基分配的质量分数。这个分数反映了测序仪器对每个碱基的置信度,通常表示为Phred质量分数。Phred质量分数越高,表示测序仪器对该碱基的测序准确性越高。
EmpiricalQuality(经验质量)代表的是通过分析实际测序数据计算得出的质量分数。这些经验质量分数是基于观察到的错误率(例如错配、插入和删除)来调整原始的质量分数,从而更准确地反映测序数据的真实质量。
EventType代表的是不同类型的测序事件。包括以下几种:Mismatch:碱基与参考基因组不匹配的事件。Insertion:插入事件,即在测序读段中有额外的碱基插入。Deletion:删除事件,即在测序读段中缺失了某些碱基。

如有错误,欢迎指正!

资料来源:https://gatk.broadinstitute.org/hc/en-us/articles/360035890531-Base-Quality-Score-Recalibration-BQSR

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值