近日,Sentieon与中国遗传疾病诊断领导者安吉康尔积极合作,共同开发测试了基于Sentieon机器学习变异检测模块DNAscope的“浅”测序模型,并探索了该模型在遗传病临床诊断领域的应用。结果显示,使用这一模型分析,在不降低变异检测准确度的前提下,能在相同测序通量下增加50%以上的样本数量,在测序与分析两方面同时为用户降低成本。
项目背景
自从NGS被应用在了全基因组和全外显子测序以来,测序深度的影响被广泛研究。测序深度是测序成本的决定因素,但另一方面过低的深度会导致部分区域的突变检测准确性大幅度下降,因此需要寻找到一个平衡点。
我们都知道,每一个检测到的变异都需要若干条reads的支持,低于一定的阈值则难以将真实突变与引入的错误区分开来。然而由于基因组中GC分布的不均匀,简单重复序列的存在,外显子靶向扩增效率差异等情况的存在,实际map在基因组上的reads的深度是非常不平均的。尤其是全外显子或者panel产生的数据数据,深度均一性比全基因组要更低,某些位点难以进行准确的突变检测。
从下图文献报道中我们可以看到,在全外显子的数据中,错误的突变主要来自于10x以内的低深度区域;相比之下全基因组数据的覆盖均一度较好,但是错误的突变同样来自于较低深度区域。
换言之,要想进一步提升变异检测的准确度,核心问题是提升低深度区域的准确度。