Bacass精简modules
Fastp
一种旨在为 FastQ 文件提供快速一体化预处理的工具。该工具是用 C++ 开发的,支持多线程以提供高性能运作(过滤与质控)
- 过滤数据前后的综合质量分析(质量曲线、基础含量、KMER、Q20/Q30、GC 比率、重复、适配器内容…)
- 过滤掉不好的读取(质量太低、太短或太多 N…)
- 通过从滑动窗口(如 Trimmomatic 但更快)评估平均质量,在其 5’ 和 3’ 中为每次读取切割低质量的碱基。
- 修剪前面和尾部的所有读取
- 切割适配器。可以自动检测适配器序列,这意味着您不必输入适配器序列来修剪它们。
- 纠正配对末端读数重叠区域中的错配碱基对,如果一个碱基质量高而另一个碱基质量超低
- 在 3’ 末端修剪 polyG,这在 NovaSeq/NextSeq 数据中很常见。修剪 3’ 末端的 polyX 以去除不需要的 polyX 拖尾(即 mRNA-Seq 数据的 polyA 拖尾)
- 预处理启用唯一分子标识符 (UMI) 的数据,将 UMI 转换为序列名称。
- 报告 JSON 格式的结果以供进一步解释。
- 在单个 HTML 页面上可视化质量控制和过滤结果(类似于 FASTQC,但速度更快、信息更多)。
- 将输出拆分为多个文件(0001.R1.gz、0002.R1.gz…)以支持并行处理。可以使用两种模式,限制总拆分文件数,或限制每个拆分文件的行数。
- 支持长读取(来自 PacBio / Nanopore 设备的数据)。
- 支持从 STDIN 读取和写入 STDOUT
- 支持交错输入
Porechop
Porechop 是一种用于从牛津纳米孔读数中查找和去除接头的工具。读取末端的适配器被修剪掉,当读取中间有适配器时,它被视为嵌合体并被切割成单独的读取。Porechop 执行彻底的比对以有效地找到接头,即使在低序列同一性下也是如此。
Nanoplot
tag:样品ID
publishDir:文件的输出路径:路径参数/样品ID/QC_longreads/NanoPlot,mode:publish_dir_mode = ‘copy’
when:当不是短reads时
input:从ch_for_nanoplot中提取样品ID以及长read