一种PacBio测序数据组装得到的基因组序列的纠错方法技术
技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20
本发明专利技术提供一种PacBio测序数据组装后序列的纠错方法,它包括以下步骤:
步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;
步骤二:提取可能存在错误的位置和对应位置的碱基类型信息;
步骤三:提取可能存在错误的位置的碱基类型的覆盖深度信息;
步骤四:根据可能存在错误的位置的不同碱基类型覆盖深度比较,进行基因组序列替换纠,得到新的基因组序列。
本发明专利技术移除了PacBio测序数据组装序列后单碱基错误和碱基插入缺失错误,有效的提高了组装序列的准确度。
【技术实现步骤摘要】
一种PacBio测序数据组装得到的基因组序列的纠错方法
本专利技术涉及生物信息
,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法。
技术介绍
PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的数据,在业内叫PacBio数据或PacBio测序数据;
Illumina是一家美国的测序仪公司,提供第二代测序技术测序平台,他们的测序仪产生的数据,在业内叫Illumina数据或Illumina测序数据。PacBio第三代测序技术具有超长读长、无PCR扩增、极小GC偏向等优势,越来越多的基因组是采用三代PacBio测序数据组装。但PacBio单次测序的错误率约为15%,目前主要采用组装前对测序数据进行纠错,组装后序列不再纠错。然而,组装后序列还存在很多错误,包括单碱基错误和碱基插入缺失错误。单碱基错误和碱基插入缺失错误都对后续分析造成很大影响,比如,如果这种错误存在于基因区域,可能导致基因预测不出来或预测出错误基因;如果错误存在于重复序列区域,可能导致序列分化时间估算错误等。
技术实现思路
本专利技术的目的是解决以上提出的问题,提供一种PacBio测序数据组装后序列的纠错方法,最大程度的减少组装序列的错误。本专利技术是通过以下技术方案实现的:本专利技术为一种PacBio测序数据组装得到的基因组序列的纠错方法,包括以下步骤:步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;步骤二:根据步骤一的比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;步骤三:根据步骤一的比...
【技术保护点】
一种PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,包括以下步骤:步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;步骤二:根据步骤一比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;步骤三:根据步骤一比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;步骤四:如果可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,则对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,反之就不替换纠错。
【技术特征摘要】
1.一种PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,包括以下步骤:步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;步骤二:根据步骤一比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;步骤三:根据步骤一比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;步骤四:如果可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,则对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,反之就不替换纠错。2.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。3.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤二包含质控,所述质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的...
【专利技术属性】
技术研发人员:郝美荣,詹东亮,
申请(专利权)人:杭州和壹基因科技有限公司,
类型:发明
国别省市:浙江,33