介绍
本文描述了使用Sentieon® DNAscope进行PacBio® HiFi数据胚系突变检测。PacBio® HiFi技术产⽣质量值超过Q20的高质量长读段,平均长度在10-25kb之间。准确的长读段可以对短读段和高噪音长读段方法无法检测的基因组重复区域进行精准的变异检测。
Sentieon® DNAscope能利用PacBio® HiFi数据高质量、长读长的优势,使用经过校准的机器学习模型进行快速、精准的变异检测。针对HiFi数据的DNAscope流程输入比对后的HiFi数据,并输出VCF格式变异检测结果。
本流程的使用需要使用202010.03或更新版本的Sentieon软件和可从Sentieon®获取的相关脚本。本流程需要Python版本>2.7或>3.3,bcftools版本为1.10及以上。Python
,bcftools
,bedtools
需要在用户环境变量中。
输入数据要求
比对后数据
本流程的输入使用pbmm2
或minimap2
比对后的PacBio® HiFi数据。使⽤pbmm2
比对推荐使用-c 0 -y 70 --preset HIFI
参数。这些设置关闭了pbmm2
传统的比对⼀致性过滤,转而使用间隔压缩序列过滤并使用PacBio®推荐的HiFi数据比对设