ReMILO：使用短读和长读的参考辅助错配检测算法

最新推荐文章于 2022-01-03 10:40:53 发布

wangchuang2017

最新推荐文章于 2022-01-03 10:40:53 发布

阅读量924

点赞数

本文链接：https://blog.csdn.net/u010608296/article/details/113841936

版权

生物信息学同时被 3 个专栏收录

642 篇文章 399 订阅

订阅专栏

基因组组装assembly

53 篇文章 17 订阅

订阅专栏

健康信息学

27 篇文章 3 订阅

订阅专栏

ReMILO：使用短读和长读的参考辅助错配检测算法

鲍古德，宋长进，凌小兰

作者须知

Bioinformatics，第34卷，第1期，2018年1月1日，第24-32页，https： //doi.org/10.1093/bioinformatics/btx524

发布时间：

2017年8月21日

文章历史

抽象的

动机

从第二代测序短读物中组装的重叠群可能包含错配，从而使下游分析复杂化，甚至导致错误的分析结果。幸运的是，随着越来越多的可用测序物种，可以使用密切相关物种的参考基因组来检测错配。此外，长读第三代测序技术已得到越来越广泛的使用，并且还可以帮助检测组装错误。

结果

在这里，我们介绍ReMILO，这是一种参考辅助的错误组装检测算法，该算法同时使用短读和PacBio SMRT长读。ReMILO将最初的短读序列与重叠群和参考基因组进行比对，然后构建了一个称为红黑多位置de Bruijn图的新型数据结构，以检测错配。此外，ReMILO还使重叠群与长读段对齐，并发现它们与长读段的差异，以检测更多的错配。在我们对人类14号染色体数据的短读组装的性能测试中，ReMILO可以检测到41.8–77.9％的广泛组装错误和33.6–54.5％的局部组装错误。在混杂的沙门氏菌数据的短读和长读组装中，ReMILO还可以检测到60.6–70.9％的广泛错配和28.6–54.0％的局部错配。

可用性和实施

可以从以下网站免费下载ReMILO软件：Artistic License 2.0：https：//github.com/songc001/remilo。

补充资料

补充数据可从生物信息学在线获得。

副主编：伊南克·比罗尔（Inanc Birol）

1引言

第二代测序技术可以产生短读以对物种进行测序。短读长几百个bp，每Mbp低于$ 0.1，可以组装成目标基因组的重叠群。但是，组装的重叠群通常包含错误。例如，发现通过短阅读组装的金黄色葡萄球菌和恶性疟原虫的重叠群和已出版的基因组分别含有2.0％和5.1％的错误（Hunt 等人，2013）。重叠群中引入的错误主要是由于基因组重复和多倍性，使得难以将短读与相似的基因组区域区分开。误差可分为两类：小误差，即不匹配和小的indel，以及组装不当，即重新排列和/或明显大的indel。第一个错误可能直接影响下游基因组中的单核苷酸多态性（SNP）分析，因为这些错误很难与SNP区别开，而第二个错误影响基因组中的结构变异（SV）分析（Feuk 等人。，2006）。与小错误相比，检测错误组装更具挑战性，因为它们通常比初始短读要大得多，并且也很难与SV区分。

已经发布了几种检测错配的算法（Hunt 等，2013；Muggli 等，2015；Walker 等，2014；Zhu 等，2015）。根据输入，它们可以分为以下两类。（1）某些算法仅以初始短读输入。REAPR（Hunt 等人，2013）和Pilon（Walker 等人，2014）将短读段与重叠群对齐，并计算以下统计信息以检测错配：（i）读段覆盖率，（ii）错误定向的读段数量（即配对对以反向排列）和（iii）部分对齐的读段数量。REAPR计算预期和观察到的阅读覆盖率之间的差异以进行检测，而Pilon计算沿重叠群的阅读覆盖率的变化。（2）输入其他一些算法，包括初始短读和额外的数据源。misSEQuel（Muggli et al。，2015）使短片段与重叠群对齐，并重新组装重叠群以检测错配。它还将重叠群与相应的光学映射数据对齐，以减少错误检测。misFinder（Zhu 等，2015）使重叠群与密切相关物种的参考基因组比对，以检测可能的错配。然后，它将短读段与重叠群对齐，并使用与上述类似的统计数据来确认组装错误。

当前，新的机会，例如越来越多的可用测序物种以及第三代测序技术，使得有可能进一步提高组装重叠群的质量，尽管大多数研究都试图生成更长更完整的重叠群，而不是检测错配。

由于第二代测序技术的成本低，已对越来越多的物种进行了测序。因此，当对一个物种的短读进行组装时，有时可以找到密切相关物种的参考基因组，并将其用于提高组装质量。Schneeberger 等。（2011年）通过将短读段与参考基因组对齐来组装短读段，由我们自己设计的AlignGraph（Bao 等人，2014年）扩展并加入了预组装的重叠群与参考基因组，以及RACA（Kim 等人，2013年）和Ragout（Kolmogorov 等，2014）构建分别用于具有单个参考基因组和多个参考基因组的预装配重叠群的支架。misFinder（Zhu 等人，2015）是检测参考基因组错配的唯一算法。
为了克服第二代测序技术的读取长度限制，作为第三代测序技术的代表的PacBio SMRT测序技术于2010年商业化发布，产生了约5–15 kbp的长读取量，约0.4美元–每Mbp -0.8（Eid 等，2009）。考虑到与短读相比相对较高的成本，通常将覆盖范围从低到中等的长读与短读一起用于高质量的程序集。当长读的覆盖率较低时，PBJelly2（English 等人，2012）使用长读填补了支架的空缺；当覆盖范围适中时，则使用Celera（Koren 等人，2012），SPAdes（Bankevich等。，2012），Cerulean（Deshpande et al。，2013）和dbg2olc（Ye et al。，2014）可以将长读段和短读段组合在一起以生成更长和更完整的重叠群。但是，还没有专门设计用于使用长读取来检测组装错误的算法。

因此，在本文中，我们提出了一种新颖的算法ReMILO，该算法使用相应的短读和密切相关物种的参考基因组以及相应的长读来检测重叠群中的错配。Muggli 等。（2015年）“强调需要使用另一种信息源……以识别错误组装”。他们使用光学测绘数据作为数据源，并证明了其良好的性能。该数据源的局限性在于，错误组装检测性能很大程度上取决于用于生成光学作图数据的酶，并且很难或很难找到合适的酶选择。因此，我们使用参考基因组和长读作为替代数据源来检测错配。尽管错误装配检测性能受参考基因组的相似性和长读段的覆盖范围的影响，但它更加稳定，可以使用广泛的参考基因组和长读集来获得良好的性能。另外，获得参考基因组和长阅读需要非常小的成本：前者可以从公共资源库中下载，而后者的覆盖率低通常就足够了。尤其是，对于那些组装了短读和长读的测序项目，后者很容易获得，而无需额外费用。ReMILO的新颖性如下。

ReMILO结合了不同的数据源以获得最佳性能。（i）参考基因组很长，但是与测序物种的目标基因组相比，它包含SV，因此可用于检测组装错误，但灵敏度高但准确性相对较低。（ii）短读段与靶基因组的差异有限，但很短，因此可用于以较高的准确度但相对较低的灵敏度检测错配。（iii）长读段长且几乎不包含SV，但由于其成本高于短读段，因此在测序项目中通常覆盖率较低至中等，因此可用于以中等灵敏度和准确度检测错配。因此，ReMILO将参考基因组和短读段结合使用，以确保足够的敏感性和正确性来进行错配检测，
ReMILO从短读序列比对重叠群和参考基因组构建了一种称为红黑多位置de Bruijn图的新型数据结构，以检测错配。该图是常规de Bruijn图的变体（Pevzner 等人，2001；Zerbino和Birney，2008）。该图的特点是，重叠群和参考基因组的比对位置都包含在其顶点中，因此可以避免图中的许多分支路径[请参见Ronen 等。（2012）和Bao 等。（2014年）[用于减少de Bruijn图中的分支路径的合并对准位置的详细讨论/说明]。重叠群与该图具有以下对应关系。（i）重叠群对应于图中的路径。（ii）重叠群中的错配对应于不一致的顶点在路径中，它们是与顶点重叠的位置接近但与参考基因组对齐的位置接近的相邻顶点。（iii）错子重叠群在错配位置的真实连接对应于连接不一致顶点的替代可靠路径。由于图中有限的分支路径，连接不一致顶点的替代可靠路径足够具体，可以指示错误组装。因此，ReMILO不仅使用不一致的顶点，而且还将连接它们的替代可靠路径用作错位指示符。

2。材料和方法

我们将初始短读序列与重叠群和参考基因组对齐。然后，我们构造了一个红黑多位置的de Bruijn图，以检测组装错误。我们还将重叠群与长读对齐，并发现差异以检测更多的错配。最后，我们将检测到的来自两个数据源的错配组合在一起。以下是该算法的详细信息（请参见补充部分S1，了解红黑位置德布赖恩图的背景知识。

2.1与重叠群和参考基因组的短读比对

我们将短读物与重叠群和参考基因组对齐。为了使短读段与重叠群比对，使用了Bowtie2，因为它是专为与同一物种的长序列短读比对而设计的（Langmead和Salzberg，2012）。为了使短读序列与参考基因组比对，我们应用了重叠群指导方法，因为很少有专为与近缘物种的长序列短读序列比对而专门设计的比对器（Bao 等人，2014年。）。重叠群指导的方法使重叠群与参考基因组比对，使得与重叠群对准的短读段可以进一步与参考基因组比对。尽管重叠群与参考基因组不是来自同一物种，但它们比短读段长得多，因此可以与耐受许多差异的参考基因组比对。结果，足够数量的短阅读可以与重叠群指导的参考基因组比对。然后，我们将未比对的短读段直接与参考基因组比对。不比对的短读物包括不与重叠群对齐的那些，以及与重叠群对齐但对应的重叠群与参考基因组不对齐的那些。BWA-MEM用于将重叠群与参考基因组比对，Li和Durbin，2009年）。Bowtie2用于以更宽松的身份设置（例如，相对较大的插入长度）将剩余的短读段与参考基因组对齐。

如果短读具有与重叠群或参考基因组相似的多个比对，则我们从其中随机选择一个。这可以避免来自多个重复区域的短读与单个区域对齐的对齐偏差。此外，如果短读与参考基因组不一致，我们将其丢弃。只要它们中的大多数都能对齐，这就不会严重影响组装错误检测性能（请参阅第3.3.1节）。

2.2构造红黑多位置德布赖恩图

我们构造 l−k+1l−k+1从长度为l的对齐读取中连接顶点。每个顶点是一个k- mer(s,pc,pg)(s,pc,pg)其中s是k个读碱基，p c是第一个contig位置s与之对齐，而p g是第一个参考基因组位置s与之相对应。如果s直接与参考基因组对齐，则p c设置为-1 。我们连接两个顶点(s,pc,pg)(s,pc,pg) 和 (s',p′c,p′g)(s′,pc′,pg′) 如果满足以下约束（1.1）-（1.3）。

（1.1） s=s's=s′⁠ ;

（1.2） |pc−p′c|<ϵ or pc=−1 or p′c=−1|pc−pc′|<ϵ or pc=−1 or pc′=−1⁠，其中ϵ是允许的移位数；

（1.3） |pg−p′g|<ϵ|pg−pg′|<ϵ⁠。

约束（1.2）-（1.3）保证了德布赖恩图的简单性，即避免了不必要的分支路径。这是因为它们避免了来自不同基因组位置的短读的错误连接，同时还允许来自相同基因组位置的比对差异的短读的连接。此外，约束（1.2）保证完整性de Bruijn图的存在，即必要路径的存在。这是因为它允许直接与参考基因组对齐的短读段与与重叠群对齐的短读段的连接。请注意，即使在上一步中一些短读段与参考基因组比对，并由两个相邻比对的重叠群指导，在重叠的两个重叠群末端之间通常也存在与参考基因组直接比对的短读段，因此可以将它们全部连接起来形成完整的路径。de Bruijn图的简单性和完整性对于错误组装检测至关重要（请参见第2.4节）。

2.3红黑多位置德布赖恩图的着色

对于每个顶点，我们计算读取的总数δ和错误定向的读取的数目（即，配偶对以相反的方向对齐）γ生成连接的顶点作为其可靠性的指标。如果顶点颜色为红色δ∉[Δ,Λ]δ∉[Δ,Λ] 或者 γ>Γγ>Γ⁠，在哪里[Δ,Λ][Δ,Λ]是可接受的读取范围，Γ是不正确定向的读取的最大数量；否则，我们将其涂成黑色。取决于顶点是否是根据与重叠群对齐的读段构建的（⁠pc≠−1pc≠−1⁠）或直接与参考基因组对齐的读段（⁠pc=−1pc=−1⁠），阈值Δ，Λ和Γ是不同的，因为通常与重叠基因组比参照基因组可以比对更多的读段。我们通过采用基于抽样的方法来计算阈值（Muggli 等，2015）。该方法对重叠群或直接比对的参考基因组区域进行采样，找到读取覆盖率的分布以计算Δ和Λ，还找到方向错误的读取数的分布以计算Γ。两种分布都是正态分布，因此分别将Δ和Λ计算为平均值减去标准偏差的三倍，再将Γ计算为均值加上标准偏差的三倍[参见Muggli 等。（2015年）更多细节]。

2.4使用红黑多位置de Bruijn图进行错装检测

在构造红黑多位置de Bruijn图并着色后，每个重叠群位置p c具有对应的顶点(s,pc,pg)(s,pc,pg)在图中，因此我们一一检查相邻的重叠群位置。在两个相邻重叠群位置p c和c之间检测到错配p′c=pc+1pc′=pc+1 具有相应的顶点 (s,pc,pg)(s,pc,pg) 和 (s',p′c,p′g)(s′,pc′,pg′)⁠分别满足条件（2.1）和（2.2）或（2.3）。

（2.1）两个顶点不一致，即 |pg−p′g|>Φ|pg−pg′|>Φ⁠，在哪里ΦΦ 表示可能的错误组装的距离；

（2.2）两个顶点是红色的；

（2.3）两个顶点之间至少连接一条黑色路径 ΦΦ⁠。

的默认值 ΦΦ设定为85，这是QUAST决定错误组装的最小距离（Gurevich 等人，2013年，请参见第3.3节）。约束（2.1）检查不一致的顶点，其与重叠群的对齐位置紧密，而与参照基因组的对齐位置相距较远，以检测可能的错配。约束（2.2）检查不一致顶点的可靠性，以确认组装错误。该约束基于红黑色多位置de Bruijn图的简单性，因为通过避免不必要的分支路径，可以对顶点进行精确着色（Muggli 等人，2015年）。约束条件（2.3）检查连接不一致顶点的替代可靠路径，以确认组装错误。此约束还基于红黑色多位置de Bruijn图的简单性，因为仅通过避免不必要的分支路径，替代可靠路径才足以作为错装指示符。此外，该约束还基于红黑色多位置de Bruijn图的完整性，这保证了替代可靠路径的存在。在实践中，可能很难找到连接不一致顶点的完整路径，尤其是当路径较长时，因此可以将约束（2.3）放宽到下面的（2.3'）。

（2.3'）两个顶点中的每个顶点均与一条黑色路径相连，并且两个路径的总长度至少为 ΦΦ⁠。

由于（2.3'）中的两个黑色路径可能不是（2.3）中的替代黑色路径的子路径，因此这种宽松的约束可能会导致错误地检测到组装错误，但是它简化了算法并可以帮助检测更多的组装错误。

与misSEQuel算法的错误组装检测方法相比，我们的方法不仅检查顶点的可靠性，而且检查不一致的顶点和替代的可靠路径，从而可以实现更高的灵敏度和准确性。图1显示了一个示例，该示例显示了在组装错误检测中红黑色多位置de Bruijn图相对于红黑色位置de Bruijn图的优势。

图。1。

在新标签页中打开下载幻灯片

红黑多位置de Bruijn图相对于位置de Bruijn图的优势。与目标基因组相比（虚线矩形未知），重叠群的错配不包含基因组区域A'A′⁠。重叠群/基因组区域A和B彼此相似。（A）列出了短读及其与重叠群和多重性的比对位置，从而构建了红黑位置的de Bruijn图。基因组区域的短读A'A′需要将其与重叠群区域A对齐，从而导致区域A的覆盖范围过大，并在图中出现相应的红色路径，以检测组装错误。但是，由于某些对齐问题，短读未对齐，从而导致顶点出现黑色路径(ACG,0)(ACG,0) 到 (CGA,1)(CGA,1) 到 (GCA,4)(GCA,4)⁠，所以不会检测到组装错误。此外，来自基因组区域B的许多短读与重叠群A对齐，导致区域B的覆盖范围不足，并且图中的顶点具有相应的红色路径(ACG,593)(ACG,593) 到 (GCA,597)(GCA,597)⁠，因此在区域B中发生了错误的检测。（B）列出了短读物，其与重叠群，参考基因组和多重性的比对位置，构建了红黑多位置de Bruijn图。基因组区域的短读A'A′ 与参考基因组区域对齐 A'A′⁠，导致顶点不一致(GCA,4,116)(GCA,4,116) 和 (CAT,5,124)(CAT,5,124)（⁠|5−4=1||5−4=1| 但 |124−116|=8|124−116|=8⁠）和一条将它们从顶点连接起来的替代黑色路径(CAA,5,117)(CAA,5,117) 到 (GCA,−1,123)(GCA,−1,123)（阴影），因此可以检测到组装错误。此外，不会发生错误检测，因为不存在任何其他不一致的顶点

2.5使用长读进行错误组装检测

我们还将BWA-MEM的长读段与重叠群对齐。如果长读质量相对较低（Eid 等，2009），则可以使用各种长读纠错器来提高质量（Bao和Lan，2017 ; Koren 等，2012 ; Salmela和Rivals，2014），以便它们可以满足BWA-MEM的输入要求。然后我们一一检查相邻的重叠群位置。在两个相邻位置p c和p之间检测到组装错误p′c=pc+1pc′=pc+1⁠，如果满足以下约束（3.1）–（3.2）。

（3.1）p c和p′cpc′与长读位置p r和p′rpr′⁠分别和|pr−p′r|>Ψ|pr−pr′|>Ψ⁠，在哪里ΨΨ 表示可能的错误组装的距离；

（3.2）至少C个长读满足约束（3.1）。

的默认值 ΨΨ也设置了85。图2显示了使用长读来定位几种类型的装配错误的示意图。

图2。

在新标签页中打开下载幻灯片

使用长读来定位几种类型的错配的插图（为简单起见，每个插图中仅使用一个长读）。（A）重叠区域A和B的转座导致两者之间的错配。B−B− 和 A+A+ 和之间 A−A− 和 B'+B′+⁠。可以在相邻重叠群位置p 1和p 2（或p 3和p 4）分别与一段距离的长读取位置p 1和p 2（或p 3和p 4）对齐的情况下检测到这些错配。（B）重叠群区域B的倒置导致两个A−A− 和 B−B− 和之间 B+B+ 和 B'+B′+⁠。可以在相邻重叠群位置p 1和p 2（或p 3和p 4）分别与一段距离的长读取位置p 1和p 2（或p 3和p 4）对齐的情况下检测到这些错配。（Ç）一种折叠的重叠群区域乙与B'B′ 导致一次之间的错误组装 B−B− 和 C+C+⁠，可以在相邻重叠群位置p 1和p 2分别与一段距离的长读取位置p 1和p 2对齐的情况下进行检测。（D）扩大的重叠群区域B''B″ 从 B'B′ 导致一次之间的错误组装 B'−B′− 和 B''+B″+⁠，可以将相邻重叠群位置p 1和p 2分别与一段距离的长读取位置p 1和p 2对齐来检测

最后，我们将使用长读和使用参考基因组的检测到的错配组合为最终结果。在彼此靠近的重叠群位置处检测到的两个错配被视为相同的错误，中间的重叠群位置被报告为错配位置。

2.6 ReMILO软件的实现

ReMILO软件在Linux平台的C ++中实现。ReMILO的输入包括重叠群，参考基因组，短读和长读，其输出包括记录检测到的错配的位置的文件和在错配位置包含分开的重叠群的另一个文件。ReMILO是否可以进行长时间读取，取决于是否输入了长时间读取。

3评估

3.1实验设计

3.1.1对人类14号染色体数据的短读汇编进行测试

（i）我们将ReMILO与REAPR（Hunt 等人，2013），Pilon（Walker 等人，2014）和misFinder（Zhu 等人，2015）在人14号染色体重叠群上进行了比较，这是根据GAGE评估（Salzberg 等人，2012）（染色体类型：二倍体;大小：107.3 Mbp;可从GAGE网站下载）。在该测试中未比较misSEQuel，因为未获得光学作图数据。重叠群是由短读装配ALLPATHS-LG（组装Gnerre 等人，2011），MaSuRCA（子敏等人，2013）和SOAPdenovo2（洛等。（2012年），它们是支持短读汇编的典型汇编器。片段库中相应的34x覆盖范围的短读（读长×量：101×36.5 M bp；来自GAGE网站）用于错误组装检测。参考基因组是黑猩猩的第14号染色体[来自Ensembl FTP站点（版本85）]。无法获得人类第14号染色体的长读，因此，我们通过BWA-MEM将来自整个人类基因组（来自NCBI编号SRX2010823）至人类第14号染色体的多个文库的长读进行了比对，并获得了10倍覆盖率的比对文库（阅读长度×数量：1851×591.2k bp）。长读已由我们自己设计的长读纠错器HALC进行了纠错（ Bao and Lan，2017）。（ii）我们还将ReMILO与合成重叠群上的现有算法进行了比较。合成重叠群是通过将初始重叠群合并并添加相对较大的插入缺失而生成的。与最初重叠群中的错配相比，引入的错配更加明确，但是具有已知的位置，因此可以用来以更准确的方式比较算法。在下面的讨论中，合成的重叠群被称为syntigs区别于最初的。（iii）此外，在重叠群上，我们改变了输入ReMILO的参考染色体，包括大猩猩，猩猩，长臂猿和猕猴的染色体[来自Ensembl FTP站点（版本85）]，以查看参考基因组对组装错误检测结果。染色体与人类染色体14的相似性从黑猩猩到猕猴下降，并被量化为与该染色体对齐的人类染色体14短读的百分比。

3.1.2对粳稻数据的短读汇编进行测试

（i）为了在有或没有输入其他数据源的情况下对ReMILO与misSEQuel进行比较（长时间读取ReMILO并将光学制图数据输入misSEQuel），我们使用了粳稻数据（基因组类型：二倍体;大小：374.5 Mbp;从NCBI登录号为GCA_001623365.1）。重叠群是从短组装读取的55×覆盖（读长×量：76×268.9中号BP;从NCBI登录SRX032913）通过短读装配IDBA（彭等人，2012，黑桃（）Bankevich 等人，2012）和天鹅绒（Zerbino和Birney，2008年）。汇编程序的选择与Muggli 等人的一致。（2015年），不包括ABySS和SOAPdenovo2，它们的重叠群几乎没有错配。所有的短读都用于组装错误检测。参照基因组是籼稻水稻基因组[从ENSEMBL植物FTP站点（释放33）]。长读段覆盖率为20倍（读段长度×数量：2950×2520.6k bp；来自NCBI，登录号SRX1897300），并通过HALC进行了纠错。从Kawahara 等人查询并获得了光学制图数据。（2013）。（ii）此外，我们将长时间阅读的覆盖范围从10倍更改为40倍，以了解长期阅读的覆盖范围对错误组装检测结果的影响。

3.1.3对短链和链条沙门氏菌数据的混合读和长读进行测试

（i）因为相对较高覆盖率的长读物不仅可以输入到ReMILO中以检测错配，而且可以与短读物组合在一起，所以我们还将ReMILO与REAPR，Pilon和misFinder进行了比较，将短和短链组装的杂种沙门氏菌重叠群。长读（基因组类型：三倍体；大小：18.7 Mbp；从NCBI登录号AZCJ00000000.1下载）。重叠群是由汇编员SPAdes通过短读72倍覆盖（读长×数量：300×2.7 M bp； NCBI登录号DRX036591）和长37倍覆盖（读长×数量：2942×244k bp）组装而成的。这是一个典型的汇编程序，它支持用未校正的长读或校正的长读输入的混合装配。通过PacBio读数模拟器PBSIM（小野（Ono）等。（2013年），然后直接输入到SPAdes中，或者通过HALC进行更正，然后输入到SPAdes中。所有的短读和校正长读都用于组装错误检测。参照基因组是酿酒酵母基因组（来自NCBI登录号NC_001133.9-NC_001148.4）。（ii）此外，我们再次将ReMILO与重叠群产生的合成群的现有算法进行了比较，方法是将它们合并并添加相对较大的indel。

关于拟南芥数据的短读和长读混合装配的附加测试描述于补充部分S2，结果显示在补充部分S3。上面的所有软件均为默认设置。程序集统计信息在补充表S1。统计数据可能与Salzberg 等人先前报道的统计数据有所不同。（2012）和Muggli 等人。（2015），可能是因为更新了汇编程序版本。这些测试中有两点需要注意。（i）尽管我们使用了很多汇编程序，但本文的目的不是比较这些汇编程序，而是展示ReMILO在不同汇编程序处理重叠群时的性能。（ii）输入ReMILO的参考基因组或染色体也可用于扩展组装的重叠群（ Bao 等人，2014）或构建支架（ Kim 等人，2013 ; Kolmogorov 等。（2014年），但扩展的重叠群通常是高质量的，且组装错位有限，并且脚手架不会更改初始重叠群，因此我们没有在扩展的重叠群或脚手架上运行ReMILO。

3.2性能评估

我们使用QUAST来定位重叠群中真正的广泛错配[MA（extensive）]和局部错配[MA（local）]（Gurevich et al。，2013）。夸斯特对齐重叠群到对应的目标的基因组或染色体（即人14号染色体，粳稻水稻基因组，S.pastorianus基因组或拟南芥基因组），并检查与侧翼距离对准subcontigs [参见古列维奇等。（2013）的详细定义]。因此，重叠群是广泛错配的重叠群[MC（广泛的）]，如果其中至少包含一次广泛的错误组装；一个contig是本地错配的contig [MC（local）]，如果它包含至少一个本地错配。请注意，一个重叠群可能既是广泛错配的重叠群，也可能是本地错配的重叠群。

与定位的错误和重叠群相比，我们进行了以下测量。在这里，正确检测到的错配（或错配重叠群）是QUAST定位的错配（或重叠群），而错误检测到的错配（或错配重叠群）是QUAST或其他算法找不到的错配（或重叠群）。（i）广泛错误装配的真实阳性率[TPR（广泛）]是正确检测到的广泛错误装配的数量占广泛错误装配总数的总和。（ii）局部组装的真实阳性率[TPR（局部）]是正确检测到的局部组装的数量占局部组装的总数的总和。（iii）组装的真实阳性率（TPR）是正确检测到的未组装数量占总组装数量的总和（结合了广泛的组装和本地组装）。（iv）误装配率（FPR）是指错误地检测到的装配错误数超过了可能出现的最大装配错误数。可能出现的最大错配数量估计为两个错配之间平均距离上重叠群碱基的总数。（v）广泛错配重叠群的真实阳性率[TPRC（广泛的）]是指在此类重叠群总数中正确检测到的广泛错配重叠群的数量。（vi）本地错配重叠群的真实阳性率[TPRC（本地）]是在此类重叠群总数中正确检测到的本地错配重叠群的数量。（vii）重叠群的假阳性率（FPRC）是指错误检测到的未正确组装的重叠群的数量占正确的未重叠组装群的总数。

对于Syntig，我们知道引入的真实MA（广泛）和MA（本地）的位置。因此，我们进行了与上述相同的测量，尽管正确检测到的错误组装是与引入的真实错误重叠的错误组装，而错误检测到的错误组装是未与任何引入的真实错误重叠或在相应重叠群中检测到的错误组装。

3.3结果

3.3.1人类14号染色体数据的短读汇编结果

表1列出了由不同的短读汇编器组装或进一步合成的各种contig / syntig集的结果。在重叠群上，ReMILO可以检测到41.8–77.9％的广泛错误组装和33.6–50.8％的局部错误组装，以及11.1–21.8％的错误检测。与现有算法相比，ReMILO以更少的错误检测来检测更多的装配错误。在Syntig上，ReMILO可以检测到58.0–75.1％的广泛错误组装和49.3–54.5％的局部错误组装，而误检测率为0.6–1.3％。总体而言，ReMILO通过兼容的错误检测可以检测到更多的错误组装，并且所有算法的性能都比重叠群好，这主要是因为引入的错误组装更为明确。这些结果表明，ReMILO在检测由短读产生的重叠群/突触中的错配方面是灵敏且准确的。

表格1。

评估人类14号染色体数据的错误组装检测性能

算法	TPR（广泛）	TPR（本地）	FPR
（a）ALLPATHS-LG组装的重叠群
收割	39.8％（39/98）	25.8％（34/132）	27.6％（2324/8434）
皮隆	35.7％（35/98）	18.9％（25/132）	24.2％（2037/8434）
错误查找器	38.8％（38/98）	24.2％（32/132）	23.2％（1953/8434）
雷米洛	41.8％（41/98）	35.6％（47/132）	21.8％（1836/8434）
（b）MaSuRCA召集的重叠群
收割	77.4％（1129/1459）	19.9％（86/432）	23.2％（1789/7711）
皮隆	64.6％（943/1459）	20.6％（89/432）	28.5％（2196/7711）
错误查找器	71.7％（1046/1459）	8.1％（35/432）	11.5％（886/7711）
雷米洛	77.9％（1136/1459）	33.6％（145/432）	11.1％（859/7711）
（c）SOAPdenovo召集的重叠群2
收割	54.0％（2876/5327）	33.8％（1376/4067）	30.3％（2647/8740）
皮隆	47.8％（2544/5327）	35.5％（1443/4067）	26.6％（2329/8740）
错误查找器	52.7％（2805/5327）	32.6％（1324/4067）	23.2％（2030/8740）
雷米洛	61.5％（3276/5327）	50.8％（2065/4067）	15.7％（1376/8740）
（a'）从（a）产生的Syntig
收割	55.8％（122/219）	47.0％（103/219）	0.4％（34/8434）
皮隆	53.9％（118/219）	45.2％（99/219）	0.5％（39/8434）
错误查找器	58.9％（129/219）	41.6％（91/219）	0.5％（41/8434）
雷米洛	58.0％（127/219）	51.1％（112/219）	0.6％（48/8434）
（b'）从（b）产生的Syntig
收割	73.7％（701/951）	46.8％（445/951）	1.4％（109/7711）
皮隆	68.8％（654/951）	46.2％（439/951）	1.6％（121/7711）
错误查找器	71.1％（676/951）	37.7％（359/951）	1.5％（116/7711）
雷米洛	75.1％（714/951）	49.3％（469/951）	1.3％（99/7711）
（c'）从（c）产生的Syntig
收割	66.7％（362/543）	58.7％（319/543）	0.6％（51/8740）
皮隆	68.3％（371/543）	55.6％（302/543）	1.0％（87/8740）
错误查找器	66.5％（361/543）	53.2％（289/543）	0.8％（71/8740）
雷米洛	71.8％（390/543）	54.5％（296/543）	0.7％（65/8740）

注意：重叠群是由各种短读汇编程序ALLPATHS-LG，MaSuRCA和SOAPdenovo2组装而成的，而syntig是由它们合成的。将ReMILO的性能与REAPR，Pilon和MisFinder进行了比较。TPR（广泛）是广泛错误组装的真实阳性率，TPR（本地）是局部错误组装的真实阳性率，FPR是错误组装的错误阳性率。每列的最佳值以黑体显示。

在重叠群上，使用各种参考染色体，ReMILO错配的真阳性和假阳性率如图3A所示（参见附表S2中的原始数字）。尽管从黑猩猩到猕猴的参考染色体相似性有所降低，但两种比率都相对稳定。仅在猕猴染色体最不相似的情况下，真正的阳性率才会显着下降。这些结果表明，ReMILO并不太依赖于参考基因组，因此，鉴于一个物种的重叠群，其相对密切的物种的相对较大范围的参考基因组可用于检测错配。

图3。

在新标签页中打开下载幻灯片

ReMILO的真阳性率和与所述人14点染色体的数据（的各种参考染色体的重叠群misassemblies（分别TPR和FPR）的假阳性率甲（分别TPRC和FPRC，））和真阳性率和错误装配的重叠群的假阳性率具有对粳米数据的各种长期阅读覆盖率（B）。列出了染色体与人类染色体14的相似性（量化为与染色体对齐的人类染色体14短读片段的百分比）以及物种名称

3.3.2结果上的短读取组件粳稻稻数据

由不同的短读汇编器组装的各种重叠群的结果列在：表2。输入长读时，ReMILO可以检测到42.3–57.5％的错配重叠群，以及34.1–43.8％的本地错配重叠群，且错误检测率为7.3–19.6％。与输入光学映射数据的misSEQuel相比，ReMILO可以检测到更多错配的重叠群，但也会进行更多的错误检测。与没有输入光学映射数据的misSEQuel相比，ReMILO可以检测到较少的错配重叠群，但也可以减少错误的检测。这些结果表明，ReMILO在错误组装检测中保持了灵敏度和准确性之间的平衡。此外，与未输入大量读物的自身相比，ReMILO的总体错配重叠群的真实阳性率高4.2–5.8％，局部错位重叠群的真实阳性率高6.4–10.2％，尽管重叠群的假阳性率高1.1–2.4％。这些结果表明，ReMILO使用长读更为敏感。请注意，在这里我们比较的是错误组装的重叠群而不是错误组装，因为misSEQuel对报告错误组装的支持有限。

表2。

基于粳稻数据的错配检测性能评估

算法	TPRC（广泛）	TPRC（本地）	FPRC
（a）IDBA召集的重叠群
错误序列	100.0％（1336/1336）	100.0％（434/434）	93.6％（15 713/16 791）
错误序列	22.3％（298/1336）	26.0％（113/434）	11.3％（1896/16 791）
雷米洛	45.7％（610/1336）	27.7％（120/434）	16.2％（2716/16 791）
雷米洛	49.9％（666/1336）	34.1％（148/434）	17.3％（2910/16 791）
（b）SPAdes组装的重叠群
错误序列	100.0％（1958/1958）	100.0％（144/144）	95.2％（15037/15804）
错误序列	20.7％（405/1958）	22.9％（33/144）	12.4％（1952/15 804）
雷米洛	51.7％（1013/1958）	36.1％（52/144）	17.2％（2711/15 804）
雷米洛	57.5％（1125/1958）	43.8％（63/144）	19.6％（3090/15 804）
（c）天鹅绒组装的重叠群
错误序列	100.0％（638/638）	100.0％（49/49）	96.8％（5518/5700）
错误序列	10.2％（65/638）	14.3％（7/49）	3.9％（222/5700）
雷米洛	37.8％（241/638）	30.6％（15/49）	6.2％（351/5700）
雷米洛	42.3％（270/638）	40.8％（20/49）	7.3％（418/5700）

注意：重叠群由各种简短的阅读程序IDBA，SPAdes和Velvet组装。将输入或不输入长读取（ReMILO-）的ReMILO的性能与输入或不输入光学映射数据（misSEQuel-）的misSEQuel进行比较。TPRC（广泛）是广泛错群的重叠群的真实阳性率，TPRC（本地）是局部错群的重叠群的真实阳性率，而FPRC是重叠群的真实阳性率。除misSEQuel-以外的每一列的最佳值均以粗体显示。

借助各种长读覆盖范围，图3B中绘制了ReMILO错配重叠群的真阳性和假阳性率（请参见图3B）。补充表S3中的原始图）。正确的阳性率和错误的阳性率都随着长时间阅读的覆盖而增加，但是前者的增加幅度要远大于后者。这些结果表明，ReMILO在输入更长的读时更灵敏，而不会损失太多准确度。因此，较长的相对较高覆盖率的读数优选用于错误组装检测。

3.3.3 S.pastorianus数据的短读和长读混合程序集的结果

表3列出了由SPAdes组装或进一步合成的各种contig / syntig集的结果。在重叠群上，ReMILO可以检测到60.6–64.8％的广泛错误组装和28.6–41.7％的局部错误组装，其中错误检测为4.7–8.8％；在Syntig上，ReMILO可以检测到70.0–70.9％的广泛错误组装和47.5–54.0％的局部错误组装，而误检率为5.4–9.4％。总体而言，与现有算法相比，ReMILO可以通过兼容的错误检测数量来检测更多的装配错误。这些结果表明，ReMILO在检测由短读和长读产生的杂交重叠群/突触中的错配方面也很灵敏和准确。

表3。

根据S.pastorianus数据评估组装错误检测性能

算法	TPR（广泛）	TPR（本地）	FPR
（a）SPAdes组装的重叠群
收割	55.4％（413/746）	25.0％（21/84）	7.7％（126/1636）
皮隆	53.4％（398/746）	16.7％（14/84）	4.6％（76/1636）
错误查找器	46.4％（346/746）	4.8％（4/84）	5.4％（89/1636）
雷米洛	60.6％（452/746）	28.6％（24/84）	8.8％（144/1636）
（b）SPAdes组装的重叠群（cor）
收割	51.9％（28/54）	35.4％（34/96）	3.7％（54/1462）
皮隆	57.4％（31/54）	33.3％（32/96）	4.0％（58/1462）
错误查找器	37.0％（20/54）	16.7％（16/96）	2.3％（33/1462）
雷米洛	64.8％（35/54）	41.7％（40/96）	4.7％（68/1462）
（a'）从（a）产生的Syntig
收割	71.2％（301/423）	44.7％（189/423）	5.6％（92/1636）
皮隆	63.6％（269/423）	41.6％（176/423）	6.2％（101/1636）
错误查找器	59.3％（251/423）	34.3％（145/423）	4.6％（76/1636）
雷米洛	70.9％（300/423）	47.5％（201/423）	9.4％（153/1636）
（b'）从（b）产生的Syntig
收割	64.0％（96/150）	52.0％（78/150）	4.6％（68/1462）
皮隆	66.7％（100/150）	47.3％（71/150）	3.6％（53/1462）
错误查找器	57.3％（86/150）	46.0％（69/150）	2.9％（42/1462）
雷米洛	70.0％（105/150）	54.0％（81/150）	5.4％（79/1462）

注意：重叠群由短读和长读混合汇编程序SPAdes组装，而syntig由它们合成。在（a）中，重叠群由输入有未校正长读的SPAdes组成，而在（b）中，由输入校正后的[reads（cor）]的SPAdes组成。ReMILO的性能与REAPR和Pilon进行了比较。同样，TPR（广泛）是广泛错误组装的真实阳性率，TPR（本地）是局部错误组装的真实阳性率，FPR是错误组装的错误阳性率。每列的最佳值以黑体显示。

3.3.4运行时间和内存使用情况

在人类14号染色体的重叠群上，粳稻和沙门氏菌数据，ReMILO的运行时间分别为11.1-11.5、17.5-21.1和7.3-7.7 h，ReMILO的内存使用量分别为4.7-4.9、12.9-14.0和2.5-2.7 GB。大约40％的总运行时间用于Bowtie2和BWA-MEM对重叠群和参考基因组的短读比对，大约20％用于构建红黑色多位置de Bruijn图以检测错配，大约30％用于对重叠群进行比对。 BWA-MEM进行长读，大约10％用于使用长读来检测更多的组装错误。对于内存使用情况，峰值内存使用情况通常在重叠群与长读取的对齐过程中出现。这些结果表明，ReMILO在各种数据上都具有足够快的存储效率，因此可以实际使用。

4。结论

本文介绍ReMILO，这是一种使用短读和长读的参考辅助错误组装检测算法。ReMILO构建了一个红黑多位置的de Bruijn图，其简单易读，包括从短阅读序列到重叠群和参考基因组的简单性和完整性。ReMILO检查图形中是否存在不一致的顶点以及将它们连接起来的替代可靠路径，以检测装配错误。此外，ReMILO还使用长读取来检测更多的组装错误。实验结果表明，ReMILO是灵敏且准确的。将来，我们将从以下几个方面扩展ReMILO。（i）我们将为短读和重叠群的其他变体识别比对仪提供支持。（ii）将在错配位置分裂重叠群，以进一步正确地加入分裂重叠群。郑等。，2016年）。

致谢

我们感谢科罗拉多州立大学的Martin Muggli和圣彼得堡学术大学的Alexey Gurevich对组装错误的讨论。感谢国家农业生物科学研究所的伊藤健（Takeshi Itoh）为我们提供了粳稻的光学制图数据，也感谢Genome Surveillance，Inc.的Zhou Shiguo回答了我们对数据的问题。我们感谢加利福尼亚大学河滨分校的Thomas Girke和Tao Jiang在改进这项工作期间提出的建议。我们感谢加利福尼亚大学里弗赛德市综合基因组生物学研究所（IIGB）核心设施的支持。