一种PacBio测序数据组装得到的基因组序列的纠错方法

技术领域

发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法。

背景技术

PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的数据,在业内叫PacBio数据或PacBio测序数据;

Illumina是一家美国的测序仪公司,提供第二代测序技术测序平台,他们的测序仪产生的数据,在业内叫Illumina 数据或Illumina测序数据。

PacBio第三代测序技术具有超长读长、无PCR扩增、极小GC偏向等优势,越来越多的基因组是采用三代PacBio测序数据组装。但PacBio单次测序的错误率约为 15%,目前主要采用组装前对测序数据进行纠错,组装后序列不再纠错。然而,组装后序列还存在很多错误,包括单碱基错误碱基插入缺失错误。单碱基错误和碱基插入缺失错误都对后续分析造成很大影响,比如,如果这种错误存在于基因区域,可能导致基因预测不出来或预测出错误基因;如果错误存在于重复序列区域,可能导致序列分化时间估算错误等。

发明内容

本发明的目的是解决以上提出的问题,提供一种PacBio测序数据组装后序列的纠错方法,最大程度的减少组装序列的错误

本发明是通过以下技术方案实现的:

本发明为一种PacBio测序数据组装得到的基因组序列的纠错方法,包括以下步骤:

步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;

步骤二:根据步骤一的比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;

步骤三:根据步骤一的比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;

步骤四:根据可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,得到新的基因组序列,反之就不替换纠错。

作为优化,所述步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。

作为优化,所述步骤二包含质控,所述质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的3%或者reads 不能完全比对上的比对信息。

作为优化,所述步骤三包含过滤,所述的过滤所述的过滤是在提取可能存在错误的位置的碱基类型的覆盖深度信息的同时去除覆盖深度低于3的错误位置信息。

作为优化,所述步骤二和步骤三中的错误的位置的碱基类型,是指单碱基错误和小于6bp的碱基插入缺失错误

作为优化,所述步骤一中的Illumina测序数据,采用的是全基因组鸟枪法小片段构建的文库测序的数据。

作为优化,所述步骤一中的Illumina测序数据,由Hiseq2500测序仪测序而得,所述步骤一中的PacBio测序数据,由PacBio RSII测序仪测序而得。

作为优化,所述步骤一中采用的比对软件为BWA。

本发明的有益效果如下:

         本发明的方法实现了PacBio测序数据组装后序列的纠错,PacBio测序数据组装序列后主要的错误(包括单碱基错误碱基插入缺失错误)被移除,有效的提高了组装序列的准确度;

因为组装序列是后续分析的基础,在后续分析中,有助于提高基因的结构预测准确度,重复序列预测的准确度,序列比较分析的准确性,明显降低了后续研究的错误风险。

附图说明

图1:本发明的主要流程示意图。

具体实施方式

下面结合附图和例子对本发明的实施例进行进一步详细说明:

本实施例为一种PacBio测序数据组装后序列的纠错方法,包括以下步骤:

步骤一:使用比对软件BWA将某一物种(比如白菜)Illumina测序数据比对到同一物种同一样品PacBio测序数据组装得到的基因组序列上。

步骤二:根据步骤一比对结果文件的第3列比对上序列名称信息,第4列的比对位置信息,第6列标记的插入缺失信息和第13列标记的比对不一致碱基信息,提取可能存在错误的位置和对应位置的碱基类型信息,比对结果文件信息格式为一般行业人员所熟知的;例如,比对结果文件第3列为Chr1,第4列为1120,第 6列为125M(完全比对上),第13列为42C82,则提取可能存在错误的位置为Chr1 的第1162碱基位置,对应位置的碱基类型信息为“C”。

步骤三:根据步骤一比对结果文件的第3列比对上序列名称信息,第4列的比对位置信息,第6列标记的插入缺失信息和第13列标记的比对不一致碱基信息,在整个比对结果文件中统计可能存在错误的位置的碱基类型的覆盖深度信息,比对结果文件信息格式为一般行业人员所熟知的;例如,统计比对序列Chr1的第1162 碱基为C的共有20条reads,没有错误的比对到该位置的reads为0条。

步骤四:根据步骤三的统计,得到比对序列Chr1的第1162碱基为C的共有20条reads,没有错误的比对到该位置的reads为0条,0/20=0,而0<0.5,则PacBio 测序数据组装得到的基因组序列的Chr1序列第1162碱基替换成“C”。

步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。

步骤二包含质控,质控在步骤一之后,步骤二提取可能存在错误的位置和对应位置的碱基类型信息之前,质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的3%或者reads不能完全比对上的比对信息。

步骤三包含过滤,过滤与提取可能存在错误的位置的碱基类型的覆盖深度信息同时进行,过滤是在提取可能存在错误的位置的碱基类型的覆盖深度信息的同时去除覆盖深度低于3的错误位置信息。

步骤二和步骤三中的错误的位置的碱基类型,是指单碱基错误和小于6bp的碱基插入缺失错误。

步骤一中的Illumina测序数据,采用的是全基因组鸟枪法小片段构建的文库测序的数据。

步骤一中的Illumina测序数据,使用的是Hiseq2500测序仪测序而得,所述步骤一中的PacBio测序数据,使用的是PacBio RSII测序仪测序而得。

PacBio是一家测序仪公司,他们的测序仪产生的数据,称为PacBio测序数据

Illumina是一家美国的测序仪公司,他们的测序仪产生的数据,称为Illumina测序数据

BWA是对比软件的名称,无中文名称,在行业内直接用英文表达。

以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

### 回答1: 要用三代测序数据组装出染色体级别的基因组,可以按照以下步骤进行: 1. 数据预处理:对三代测序数据进行质量控制和过滤,去除低质量和含有适配器的reads。 2. 组装:使用基因组组装软件对经过预处理的数据进行组装。由于三代测序数据具有较长的read长度和较高的错误率,因此需要使用适合处理这种数据组装算法,如Flye、Canu、wtdbg2等。 3. 内部一致性校正:对组装结果进行内部一致性校正,去除矛盾的序列,提高组装准确性。 4. 粘连区域处理:在染色体级别组装过程中,常常会出现粘连区域,即存在多个不同的序列可以组装在一起。可以使用长读比对、Hi-C数据方法进行粘连区域的处理,得到最终的染色体级别组装结果。 5. 评估和改进:对组装结果进行评估和改进,比较组装结果和已知参考基因组的差异,并使用其他数据如RNA-seq数据进行验证和改进。 以上是组装染色体级别基因组的一般步骤,具体实施中还需要结合具体的数据情况和组装软件的特点进行调整和优化。 ### 回答2: 染色体级别的基因组组装需要经过以下几个步骤: 1. 数据质控:首先对三代测序数据进行质控,包括去除低质量碱基、修剪末端序列、去除接头序列等处理,确保数据的准确性和完整性。 2. 参考基因组比对:使用相关物种的参考基因组作为参考,将测序reads与参考基因组进行比对。此步骤可使用一些开源的比对工具,如Bowtie、BWA等。 3. 去重和拼接:根据比对结果,对重复的读取进行去重,然后将比对上的reads进行拼接,生成更长的序列。常用的拼接工具有SPAdes、SOAPdenovo等。 4. 错误矫正:对拼接得到的长序列进行错误矫正,去除可能存在的测序错误。可使用Quiver、LoRDEC等工具进行错误矫正。 5. 碱基错误矫正:使用相关物种的其他基因组信息,如原核生物的拓扑结构、转录本序列等,进行碱基错误矫正,提高结果的准确性。可使用Pilon、Racon等工具进行碱基错误矫正。 6. 持续迭代:以上步骤可能需要多次迭代进行,直至获得较完整且准确的染色体级别基因组。 7. 结果评估:通过与已知基因组的比对、基因预测和注释等方式对组装结果进行评估,验证基因组的准确性和完整性。 总之,染色体级别基因组组装利用三代测序数据,通过质控、比对、拼接、错误矫正等多个步骤,最终得到较完整、准确的基因组序列。然而,组装结果仍需综合其他实验验证,才能确保基因组的完整性和准确性。 ### 回答3: 要组装一个染色体级别的基因组,首先需要收集足够的三代测序数据三代测序技术包括Illumina,PacBio和Nanopore等,它们提供了高质量、长读长的测序数据。 第一步是建立一个参考基因组序列。可以使用辅助测序技术,如BioNano或Hi-C,来获得染色体的全长信息。这些信息将帮助将测序数据映射到参考基因组上。 接下来,将三代测序数据与参考序列进行比对。根据每个数据集之间的重叠区域,可以通过重叠改正和序列拼接方法将读取连接起来。通过比对多个数据集,可以提高准确性并填充序列间的空隙。 然后,进行读取错误矫正。三代测序技术由于其相对较高的错误率,可能需要采取矫正措施。可以使用PacBio和Nanopore提供的高质量排序读取来矫正Illumina数据集中的错误。 在得到组装序列后,需要通过重叠区域检测和破碎区域映射来验证和填充序列。通过比对之前得到的长读取和映射的链接信息,可以检测到重叠和破碎区域,并进行修复和连接。 最后,继续进行序列校准和错误修复。可以使用基于概率的方法,如polish read or consensus correction,来矫正残留的序列错误。 通过这些步骤,我们可以逐渐组装出一个染色体级别的基因组。但需要明确的是,基因组组装是一个复杂的过程,可能涉及到很多细节和步骤。因此,在实际实施中,可能需要借助各种基因组组装软件和技术来完成任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值