LoRDEC是2014年在法国蒙彼利埃大学的CNRS与赫尔辛基大学(芬兰)的Leena Salmela合作开发的一种生物信息学软件。
LoRDEC处理来自第二代和第三代高通量测序仪的数据。这些数据称为测序读取,或简称为读取。从技术上讲,它处理短读和长读以纠正长读中的错误。
第三代DNA测序技术可产生较长但错误丰富的测序读段,而第二代技术可产生短读取且错误率低。因此,需要纠正长读。
LoRDEC是用于使用短读对长测序读进行错误校正的程序。它实现了混合校正方法。它使用很少的内存并且非常高效。最重要的是,它可以扩展以处理非常大的数据集。它可用于通过Pacific Biosciences SMRT测序(SMRT =单分子实时)或牛津纳米孔MINion技术获得的长读。
LoRDEC:长期的混合错误校正程序,PacBio读取
总览
LoRDEC是一种程序,可以以较高的错误率纠正来自第三代测序的长读中的测序错误,尤其适用于PacBio读。它使用一种混合策略,这意味着它使用了两组读取:假定错误率较小的参考读取集,以及随后使用参考集进行校正的PacBio读取集。通常,参考集包含Illumina读数。
通常,PacBio读取中的错误包括许多插入和删除,以及相对较少的替换。LoRDEC可以纠正所有这些类型的错误。
校正后,PacBio读取序列的较大部分可用于检测与其他序列的相似性区域,将它们与装配体的重叠区等进行比对等。
- 为什么LoRDEC与众不同?
- 它是高效的,并且可以在通常的计算服务器上处理包括真核或脊椎动物物种在内的大型读取数据集,甚至可以在台式机/笔记本电脑上工作。
- 它采用了一种新颖的基于图的方法:它构建了一个简短的De Bruijn图(DBG),表示短读,并通过遍历图中的选定路径,为长读的每个错误区域寻找校正序列。
- 输入输出
输入读取集为FASTA或FASTQ格式。可以压缩参考读集(更确切地说,将其压缩)。
输出也是FASTA格式的校正后的读数集。在这些校正的序列中:大写字母表示正确的核苷酸,而小写字母表示未校正的核苷酸。
校正程序在调用时还需要两个参数(因此共有5条信息,请参见下面的用法):- 参数k,即在图中计算和使用的k-mers的长度
- 强度阈值s,换句话说,是k-mer出现的最小次数,因此在Illumina读数中被认为是正确的。
对于具有较小基因组的细菌物种或真核物种,您可以选择k = 19或17,而s = 2或3。对于具有较大基因组的物种,k = 21和s = 2或3。 - 程式
LoRDEC包含几个程序:
- lordec-correct:用于纠正PacBio读数的主程序
- lordec-stats:用于计算有关PacBio读数的统计信息
- lordec-trim:修整校正后的PacBio会读取无法校正的序列开头或结尾的部分。
- lordec-trim-split:修整校正后的PacBio读数,如果某些内部区域无法校正,将其分成几部分。
- lordec-build-SR-graph:从短读的FASTA文件构建de Bruijn图,并将其保存到HD5格式的文件中
程序修整和修整拆分将校正后的PacBio读数作为输入。
用法
用法(在0.3版中进行了更改)命令行上的参数可以按任何顺序指定。
- 要更正PacBio,请读取:lordec-correct
用法:lordec-正确的 [--trials <目标k-mers数量>] [-分支<要探索的最大分支数>] [--errorrate <最大错误率>] [--threads <线程数>] -2 <FASTA / Q文件> -k <k-mer大小> -s <丰度阈值> -i <PacBio FASTA文件> -o <已更正输出文件的读数>
典型命令:
lordec-正确-2 illumina.fasta -k 19 -s 3 -i pacbio.fasta -o pacbio-corrected.fasta
- 对于计算统计信息:lordec-stats
用法:lordec-stats -2 <短读FASTA / Q文件> -k <k-mer大小> -s <固体k-mer阈值> -i <PacBio FASTA / Q文件> -S <输出统计文件> [-T <线程数>]
- 修整校正后的PacBio时:lordec-trim
用法:lordec-trim -i <更正后的读取文件> -o <已修剪后的读取文件>
- 对于修整和拆分校正后的PacBio,请阅读:lordec-trim-split
用法:lordec-trim-split -i <已更正的读取文件> -o <已修剪的读取文件>
- 为了构建和保存简短的de Bruijn图:lordec-build-SR-graph
用法:lordec-build-SR-graph [-T <线程数>] -2 <FASTA文件> -k <k-mer大小> -s <固体k-mer阈值> -g <输出图文件>