Comparative assessment of long-read error correction software applied to Nanopore RNA-sequencing dat

Comparative assessment of long-read error correction software applied to Nanopore RNA-sequencing data

应用于Nanopore  RNA测序数据的长读误差校正软件的比较评估

Abstract
Motivation: Nanopore long-read sequencing technology offers promising alternatives to high-throughput short read
sequencing, especially in the context of RNA-sequencing. However this technology is currently hindered by high error rates
in the output data that affect analyses such as the identification of isoforms, exon boundaries, open reading frames and
creation of gene catalogues. Due to the novelty of such data, computational methods are still actively being developed and
options for the error correction of Nanopore RNA-sequencing long reads remain limited.
Results: In this article, we evaluate the extent to which existing long-read DNA error correction methods are capable of
correcting cDNA Nanopore reads.We provide an automatic and extensive benchmark tool that not only reports classical
error correction metrics but also the effect of correction on gene families, isoform diversity, bias toward the major isoform
and splice site detection.We find that long read error correction tools that were originally developed for DNA are also
suitable for the correction of Nanopore RNA-sequencing data, especially in terms of increasing base pair accuracy. Yet
investigators should be warned that the correction process perturbs gene family sizes and isoform diversity. This work
provides guidelines on which (or whether) error correction tools should be used, depending on the application type.
Benchmarking software: https://gitlab.com/leoisl/LR_EC_analyser

摘要:

纳米孔长读测序技术为高通量短读测序提供了有前途的替代方案,特别是在RNA测序的背景下。然而,这项技术目前受到输出数据的高错误率的阻碍,这些错误率影响分析,如异构体的识别、外显子边界、开放的阅读框和基因目录的创建。由于这些数据的新颖性,计算方法仍在积极地发展中,纳米孔RNA测序长读的纠错方法仍然有限。

结果:在这篇文章中,我们评估了现有的长读DNA错误校正方法对cDNA纳米孔reads的校正能力。我们提供了一个自动化和广泛的基准测试工具,不仅报告了经典的误差校正指标,还报告了校正对基因家族、亚型多样性、对主要亚型的偏倚和剪接位点检测的影响。我们发现,最初为DNA开发的长读错误校正工具也适用于校正纳米孔RNA测序数据,特别是在提高碱基对精度方面。然而,研究人员应该注意到,纠正过程会干扰基因家族大小和亚型多样性。这项工作提供了根据应用程序类型使用哪些(或是否使用)错误纠正工具的指南。

 

原则上,数据的高错误率使转录组的分析变得复杂,特别是在精确检测外显子边界,或定量类似的亚型和杂合基因方面。读序列需要与参考基因组或转录组进行明确且高碱基对的比对。插入(即插入/删除)是长读技术产生的主要类型的错误,它们比替换错误[22]更容易混淆对准器。纠正RNAseq读取错误的方法有很多,主要是在短读时代[23,24]。它们不再适用于长读,因为它们是用来处理低错误率和主要替换的。然而,提出了一套新的方法来纠正基因组长读。长读错误校正算法有两种,一种是只使用长读的信息(自校正或非混合校正),另一种是使用短读来校正长读(混合校正)。在这篇文章中,我们将报道在何种程度上,最先进的工具能够纠正由纳米孔测序仪产生的长噪声RNAseq读数。

 

有几种用于纠正长读错误的工具,包括ONT reads。即使Nanopore和PacBio读取的错误概况不同,错误率也非常相似,我们有理由认为,最初为PacBio数据设计的工具在最近的Nanopore数据上也表现良好。据我们所知,以前很少有专门针对RNA-seq长读的错误校正的工作。值得注意的例外包括:(i) LSC[25],其设计错误更正PacBio RNA-seq长读使用Illumina RNAseq短读;(ii) PBcR[26]和(iii) HALC[27],它们主要针对基因组设计,但也根据转录组数据进行评估。在这里,我们将站在评价RNA-seq数据的长读错误纠正工具的立场上,其中大多数设计用于处理DNA测序数据。

 

我们评估了以下DNA混合校正工具:HALC[27]、LoRDEC[28]、NaS[29]、PBcR[26]和proovread [30];

DNA自校正工具:Canu [31], daccord [32], LoRMA [33], MECAT [34], pbdagcon[35]。

我们还评估了一个额外的混合工具,LSC[25],这是唯一一个专门用于纠正(PacBio) RNA-seq长读的工具。

大多数混合校正方法采用映射策略,将短片段放置在长读上,并使用相关的短读序列对长读区域进行校正。但是他们中的一些人依靠图表来建立一个共识,用于修正。这些图要么是k-mer图(de Bruijn图),要么是由多个序列比对(部分序列比对)产生的核苷酸图。对于自校正方法,使用上述图的策略是最常见的。我们也考虑过评估nanocorrect[36]、nanopolish[36]、Falcon_sense[37]和LSCPlus[38],但有些工具是不推荐的,不适合校正或不可用。我们的详细理据见补充资料第S1.12节。我们选择了我们认为具有代表性的一套工具,但也有其他工具没有被考虑在这项研究中,如HG-Color [39], HECIL [40], MIRCA [41], Jabba [42], nanocorr[43]和Racon[44]。

其他的工作已经在DNA测序的背景下评估了错误校正工具。LRCstats[45]和最近的ELECTOR[46]使用模拟框架提供了基因组长读校正的自动评估。[47]的一份技术报告对PacBio/Nanopore的误差校正工具进行了广泛的评估。该分析是在[48]中混合校正方法的最新结果中完成的。也许最接近我们的工作是AlignQC软件[21],它提供了一组用于评估rna测序长读数据集质量的指标。在[21]中,对Nanopore和PacBio RNAsequencing数据集在错误模式、亚型鉴定和定量方面进行了比较。虽然[21]没有比较错误纠正工具,我们将使用和扩展AlignQCmetrics为此目的

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
高动态范围 (High Dynamic Range,简称HDR) 视频是指能够显示更广泛亮度区域和更丰富细节的视频格式。为了在标准的显示设备上播放HDR视频,需要进行色调映射 (Tone Mapping) 处理,将HDR视频转换为标准动态范围 (Standard Dynamic Range,简称SDR) 视频。 《高动态范围视频的色调映射算法比较评价》是一篇综述性文章,对目前的色调映射算法进行了对比和评估。 首先,文章介绍了需要解决的问题,即如何保留HDR视频的丰富细节和对比度,同时适应不同的SDR显示设备,使得观众在任何显示设备上都能够获得良好的观看体验。 接下来,文章列举了几种主要的色调映射算法,并对它们进行了详细分析和比较。比如,全局映射算法主要通过压缩整个亮度范围来适应SDR设备,但可能会损失细节;局部映射算法则更加注重保留细节,但可能导致亮度不连续性;基于图像分割的算法可以在图像不同区域中应用不同的映射策略,但需要更多的计算资源。 在比较过程中,文章对每种算法的映射质量、计算复杂度和实时性等指标进行了评估。并举例说明了不同算法在真实HDR视频上的应用效果。 最后,文章总结了各种算法的优缺点,并提出了未来研究的方向。例如,如何在保留细节的同时提高计算效率,以适应高分辨率和高帧率的HDR视频。同时,如何结合人眼感知和动态映射策略,以提供更好的观看体验。 综上所述,《高动态范围视频的色调映射算法比较评价》通过详细分析和比较不同的色调映射算法,为高动态范围视频的后续研究和开发提供了重要参考和指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值