Denoising DNA deep sequencing data—high-throughput sequencing errors and their correction

最新推荐文章于 2024-05-23 00:43:57 发布

wangchuang2017

最新推荐文章于 2024-05-23 00:43:57 发布

阅读量351

点赞数

本文链接：https://blog.csdn.net/u010608296/article/details/102777050

版权

生物信息学同时被 3 个专栏收录

642 篇文章 387 订阅

订阅专栏

第三代测序技术

257 篇文章 24 订阅

订阅专栏

文献

170 篇文章 7 订阅

订阅专栏

去噪DNA深度测序数据，高通量测序误差及其校正

Abstract

描述常见高通量测序平台产生的错误并从技术人工制品中识别出真正的遗传变异是两个相互依赖的步骤，对许多分析如单核苷酸变异调用、单倍型推断、序列装配和进化研究都是必不可少的。
随机和系统的错误都可以显示这里调查的6个主要测序平台的具体发生情况:454焦磷酸测序、完整基因组DNA纳米all测序、Illumina合成测序、离子激流半导体测序、太平洋生物科学单分子实时测序和牛津纳米孔测序。
在序列读取数据中，有大量的程序可以用来消除错误，它们在错误模型和统计技术、分析数据的特征、从中确定的参数以及使用的数据结构和算法方面有所不同。
我们强调了他们所做的假设，以及这些假设适用于哪些数据类型，并提供了有关数据属性的基准测试应该考虑哪些工具的指导。
虽然这里没有包含基准测试结果，但是这些特定的基准测试将极大地影响工具选择和未来的软件开发。
独立错误校正器的开发，以及单核苷酸变体和单倍型调用器的开发，也可以从更多地使用错误配置文件的知识和(重新)结合现有方法的思想中获益。
关键词:下一代测序，高通量测序，误差分析，误差修正，误差模型，偏差

测序平台及其错误

我们首先生成的错误在测序的一项调查五个常用的高通量测序平台:GS FLX和GS初级454[1],完整的基因组平台[2],HiSeq和MiSeq Illumina公司[3],个人基因组机(PGM)离子激流(4、5)和实时音序器太平洋生物科学(RS) [6]。此外，我们还简要介绍了由牛津纳米孔[7]发布的关于最近的MinION平台的内容，该平台尚未向公众发布。基础技术和进一步平台的详细审查可在其他地方获得[8,9]。对于除MinION外的所有平台，都存在独立的错误评估，但是系统地比较几个平台的研究很少[10 13]，而且没有一个平台覆盖超过4个平台。此外，分析的重点也各不相同，仅报告一些众所周知的错误类型:插入和删除(通常作为indel包含在内)、替换和覆盖偏差，如某些区域的覆盖减少。为了确定是否在库准备前(例如在预扩增步骤中)、库准备和扩增过程中或测序过程中引入了错误，需要在不同的实验条件下进行对比实验。这种时间和成本密集的分析很少被执行，因此，在少数情况下，只有[13]进行了这种区分。已知，核酸序列的某些特性会提高所有或大多数技术的错误率，例如GC含量的极值、长均聚物延伸、人类启动子序列的存在以及每个读码过程中众所周知的碱基信号的衰减。在讨论了各个平台的错误概要之后，我们总结了审查的第一部分，并对所有平台在这些方面进行了直接比较。

454焦磷酸测序

对于454个焦性测序仪，报告了GS FLX[14]和GS Junior[12]机器的总体错误率，并评估了GS Junior[10]的indel率。三篇研究都只研究了中间GC含量的序列。尽管如此，他们报告的错误率(表1)支持众所周知的共识，即使用这种技术，内德尔错误发生的频率比替换错误高一个数量级。这种较高的indel错误率主要是由于均聚物的出现，即同一核苷酸的多次连续出现。随着均聚物长度的增加，测序反应中单个碱基流动循环的光强分布逐渐重叠，导致碱基调用[18]时出现插入和删除错误。由于这一现象，均聚物比其他序列延伸具有更高的整体indel误差频率[10,14]，indel误差频率随着均聚物长度[10]的增加而增加。

454测序数据也包含了相当数量的不明确的基调用(一些调用者然后输出一个N)，尽管频率大大低于indels，与不匹配的[14]相当。在读取结束时，含糊不清的基调用的频率显著增加，替换错误也显著增加，而indel错误只显示了少量但明显的增加[14,18]。在read中的某个点之后，根据使用的机器和化学物质的不同，GC内容(所有读操作的平均值)也会急剧下降，这表明在稍后的流循环中存在很强的GC偏差(图1中的[19])。与此同时，长时间阅读的平均错误率更低。Gilles等。[14]表明,读起来有一个持续低或持续高错误率,即短读高错误读已经削减了大量删除错误末期,但剩下的部分仍然含有更多的错误比高质量阅读不需要修剪。最后，每孔插入和删除调用的反模式在技术的微滴板中被发现:在测序板的某些部分插入比删除更常见，而在其他区域则相反。因此，序列板的连续区域要么被富集以进行删除，要么被富集以进行插入，但是这些模式在不同的序列板或run之间似乎不一致(图3和[14]中的附加文件4)。

完整基因组DNA纳米测序

完整基因组DNA纳米测序的错误信息来自于对人类基因组样本[13]平台的系统比较。考虑到这一限制，报告的错误率(表1)表明，与indel错误相比，这种技术的替代错误更常见两个数量级。总体错误率在大范围的GC序列内容中是一致的，除了高或低GC内容的序列的删除率要高得多(图2B)。这两个GC含量极端值也与较低的读覆盖率相关(图1)。[13])。

太平洋生物科学单分子实时测序

尽管报告的错误率(表1)得到了比454焦磷酸测序和完整基因组更多样本的支持，但太平洋生物科学实时测序仪(PacBio RS)的错误率并没有得到独立研究的很好描述，特别是在PacBio最近的化学实验方面。的总体错误率约一个数量级比早些时候化学反应的离子激流的PGM,约两个数量级大于Illumina公司的平台(表1)。在平台内,indel错误比替换错误的15倍左右。极高的缺点错误率和较低的总吞吐量,这使得它难以承受的基因组DNA在较大如人类基因组[13]或metagenome研究在一定程度上抵消了两个因素:第一,很长的阅读(10 kb)的平台用于脚手架还新创的较小的基因组序列组件使用读取数据从另一个平台[11]。其次，在极端的GC序列内容时，覆盖率只略微下降，这使得该平台具有最低的GC偏差(图1;[13])。随着最近数据质量和读取长度的增加，仅从PacBio数据重新组装细菌基因组已经成为可能的[24]。此外，平台供应商还提出了两种降低错误率的方法:(i) SMRTbell模板，它是一个有效的圆形双链DNA模板，两端都有环，可以连续多次读取同一个模板。然后将这些数据聚合为一个一致的读数，错误率比[25]低得多。(ii)另一种选择是，可以使用来自不同大小的模板的冗余覆盖来建立正确的共识。在这种方法中，更丰富的短读提供了覆盖冗余，而更长读确保了程序集的连续性[26]。通过SMRTbell或增加整体覆盖率的这种额外冗余已被独立证明可将总体错误率分别降低一个数量级至1.3和2.5% ([27,28];特定于平台的错误纠正)。此外，在每次读取的最长时间内，错误率是一致的和随机的，在更长时间的读取[17]时，错误率仅略有下降。通过更长时间的均聚物延伸(删除量略有增加，插入量略有减少)和整个GC序列内容范围(图2B;[13])。

PacBio

In the long reads from the PacBio platform, the very high overall error rate is the major challenge. Currently, the two major strategies to address this are to either use less error-prone short reads from another platform with enough coverage to correct the long PacBio reads (called the hybrid approach), or to exploit the fact that errors seem to be unbiased in this platform and can therefore all be corrected, given enough coverage.

The first approach was initially implemented in PBcR [95] as a stand-alone tool and as a pipeline stage in the assembler AHA [96], the latter developed in direct cooperation with the machine vendor. In both approaches, the more accurate short reads from another platform are mapped onto the long reads. AHA then simply corrects the long reads towards the consensus of the resulting short read mapping, whereas PBcR further optimizes the alignments, creating a short read MSA that is then used for the consensus calling. The tool LSC [97] improved the alignments in this approach, by using the idea of RLE—or homopolymer compression, as the authors call it—that had been used in 454 pyrosequencing error correction shortly before (compare with Acacia and HECTOR in the section right above). Mapping RLE short reads to RLE long reads disregards homopolymer length errors and thus improves the mapping sensitivity.

A very recent tool, proovread [98], instead improves the plain mapping approach: Firstly, it makes it more sensitive by using alignment penalty values adapted to the error profile (separate penalties for insertions, deletions, substitutions and gap elongation). Secondly, it makes it scalable by parallelizing the process. It looks at mappings of short reads onto individual long reads and uses an iterative mapping and correction procedure that gradually includes more reads and allows for mapping with more mismatches in each round. Thirdly, it recognizes and splits chimeric long reads.

ECTools [99], recently published via bioRxiv, pre-assembles the more accurate short reads into unitigs using the Celera Assembler. It then aligns the long reads against those unitigs, optimizes this alignment by solving the longest increasing subsequence problem and corrects towards the unitigs.

LoRDEC [85], another recent hybrid approach, also does a pre-assembly and draws upon an existing strategy: the idea of threading reads through a generalized and weighted de Bruijn graph, first introduced as a k-mer approach solely on short reads in EULER-USR [83]. Where EULER-USR used only the more accurate prefixes of short reads to build the graph (section ‘Repeat and haplotype models’), LoRDEC uses only the short reads from a different platform, as they are more accurate than the PacBio reads. And where EULER-USR then threads the full short reads through the graph to correct them (including their less accurate suffixes), LoRDEC threads the long PacBio reads.

For the nonhybrid PacBio error correction approach, PBcR was adapted to use the higher abundance shorter reads from a PacBio RS sequencing run to provide the coverage for correcting all reads, including the lower abundance longer reads from the same run [26]. This approach was also implemented in the vendors assembly pipeline, called HGAP at the time [100].

PacBio

在PacBio平台的长读中，非常高的总体错误率是主要的挑战。目前,两个主要的策略来解决这个问题,要么使用更少出错短的读取从另一个平台有足够的覆盖纠正长期PacBio读取(称为混合方法),或利用这一事实错误似乎是公正的在这个平台,因此,所有可以纠正,给予足够的覆盖率。

第一种方法最初是在PBcR[95]中作为独立的工具和汇编程序AHA[96]中的管道阶段实现的，后一种方法是与机器供应商直接合作开发的。在这两种方法中，来自另一个平台的更准确的短读被映射到长读。AHA然后简单地纠正长读，使其接近结果短读映射的一致性，而PBcR进一步优化了一致性，创建了一个短读MSA，然后用于一致性调用。

LSC[97]利用rle(作者称之为均聚物压缩)的思想改进了这种方法的校准，该思想不久前曾用于454焦磷酸测序错误校正(与上面一节中的Acacia和HECTOR相比)。RLE短读映射到RLE长读忽略了均聚物长度误差，从而提高了映射灵敏度。

最近的一个工具proovread[98]改进了普通映射方法:首先，它通过使用与错误配置文件相适应的对齐惩罚值(对插入、删除、替换和间隙延伸分别进行惩罚)使其更加敏感。其次，它通过并行处理使其具有可伸缩性。它查看短读到单个长读的映射，并使用迭代映射和校正过程，该过程逐渐包含更多的读取，并允许在每轮中映射更多的不匹配。第三，它识别并分割嵌合的长读。

ECTools[99]最近通过bioRxiv发布，它使用Celera汇编器将更精确的短读入unitigs中。然后，它将长读与那些unitigs对齐，通过解决最长递增子序列问题来优化这种对齐，并对unitigs进行校正。LoRDEC[85]是另一种近期的混合方法，它也进行了预组装，并借鉴了现有的策略:线程化读取一个广义加权的de Bruijn图的思想，该思想首先作为k-mer方法引入，仅在EULER-USR中进行短读[83]。欧拉- usr只使用更准确的短读前缀来构建图(章节“Repeat和haplotype模型”)，而LoRDEC只使用来自不同平台的短读，因为它们比PacBio读更准确。当EULER-USR将整个短读遍图以纠正错误(包括其不太准确的后缀)时，LoRDEC将长读PacBio。

对于非混合PacBio错误校正方法，PBcR被调整为使用从PacBio RS测序运行的高丰度短读来提供校正所有读的覆盖率，包括从相同运行[26]的低丰度长读。这种方法也在供应商的组装管道中实现，当时称为HGAP[100]。

参考文献

Laehnemann D, Borkhardt A, McHardy AC. Denoising DNA deep sequencing data-high-throughput sequencing errors and their correction. Brief Bioinform. 2016;17(1):154–179. doi:10.1093/bib/bbv029

wangchuang2017

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Denoising DNA deep sequencing data—high-throughput sequencing errors and their correction

去噪DNA深度测序数据，高通量测序误差及其校正Abstract 描述常见高通量测序平台产生的错误并从技术人工制品中识别出真正的遗传变异是两个相互依赖的步骤，对许多分析如单核苷酸变异调用、单倍型推断、序列装配和进化研究都是必不可少的。随机和系统的错误都可以显示这里调查的6个主要测序平台的具体发生情况:454焦磷酸测序、完整基因组DNA纳米all测序、Illumina合...
复制链接

扫一扫