Bacass精简modules

本文介绍了Bacass模块的精简过程,重点讨论了四个关键工具在生物信息学中的作用:Fastp用于FastQ文件的预处理,Porechop去除Nanopore读数中的接头,Nanoplot提供纳米孔数据的统计可视化,Unicycler则用于基因组的组装。这些工具在处理长读取数据和原核生物基因组注释方面具有重要作用。
摘要由CSDN通过智能技术生成

Bacass精简modules

Fastp

一种旨在为 FastQ 文件提供快速一体化预处理的工具。该工具是用 C++ 开发的,支持多线程以提供高性能运作(过滤与质控)

  1. 过滤数据前后的综合质量分析(质量曲线、基础含量、KMER、Q20/Q30、GC 比率、重复、适配器内容…)
  2. 过滤掉不好的读取(质量太低、太短或太多 N…)
  3. 通过从滑动窗口(如 Trimmomatic 但更快)评估平均质量,在其 5’ 和 3’ 中为每次读取切割低质量的碱基。
  4. 修剪前面和尾部的所有读取
  5. 切割适配器。可以自动检测适配器序列,这意味着您不必输入适配器序列来修剪它们。
  6. 纠正配对末端读数重叠区域中的错配碱基对,如果一个碱基质量高而另一个碱基质量超低
  7. 在 3’ 末端修剪 polyG,这在 NovaSeq/NextSeq 数据中很常见。修剪 3’ 末端的 polyX 以去除不需要的 polyX 拖尾(即 mRNA-Seq 数据的 polyA 拖尾)
  8. 预处理启用唯一分子标识符 (UMI) 的数据,将 UMI 转换为序列名称。
  9. 报告 JSON 格式的结果以供进一步解释。
  10. 在单个 HTML 页面上可视化质量控制和过滤结果(类似于 FASTQC,但速度更快、信息更多)。
  11. 将输出拆分为多个文件(0001.R1.gz、0002.R1.gz…)以支持并行处理。可以使用两种模式,限制总拆分文件数,或限制每个拆分文件的行数。
  12. 支持长读取(来自 PacBio / Nanopore 设备的数据)。
  13. 支持从 STDIN 读取和写入 STDOUT
  14. 支持交错输入

Porechop

Porechop 是一种用于从牛津纳米孔读数中查找和去除接头的工具。读取末端的适配器被修剪掉,当读取中间有适配器时,它被视为嵌合体并被切割成单独的读取。Porechop 执行彻底的比对以有效地找到接头,即使在低序列同一性下也是如此。

Nanoplot

tag:样品ID

publishDir:文件的输出路径:路径参数/样品ID/QC_longreads/NanoPlot,mode:publish_dir_mode = ‘copy’

when:当不是短reads时

input:从ch_for_nanoplot中提取样品ID以及长read

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值