用fastp对转录组数据做QC

链接

fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件

github地址

看到介绍的时候是真的心动不已↓↓↓

fastp可以仅仅扫描 FASTQ 文件一次,就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能,而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右,因为它使用 C++开发,处处使用了高效算法,而且完美支持多线程!

这不就是我这个初入门的小白所梦寐以求的神器嘛~

fastp软件的十大功能

  1. 对数据自动进行全方位质控,生成人性化的报告;

  2. 过滤功能(低质量,太短,太多N......);

  3. 对每一个序列的头部或尾部,计算滑动窗内的质量均值,并将均值较低的子序列进行切除(类似 Trimmomatic 的做法,但是快非常多);

  4. 全局剪裁 (在头/尾部,不影响去重),对于 Illumina 下机数据往往最后一到两个 cycle 需要这样处理;

  5. 去除接头污染。厉害的是,你不用输入接头序列,因为算法会自动识别接头序列并进行剪裁;

  6. 对于双端测序(PE)的数据,软件会自动查找每一对read的重叠区域,并对该重叠区域中不匹配的碱基对进行校正;

  7. 去除尾部的 polyG。对于NextSeq/NovaSeq 的测序数据,因为是两色法发光,polyG 是常有的事,所以该特性对该两类测序平台默认打开;

  8. 对于PE数据中的overlap区间中不一致的碱基对,依据质量值进行校正;

  9. 可以对带分子标签(UMI)的数据进行预处理,不管UMI在插入片段还是在index 上,都可以轻松处理;

  10. 可以将输出进行分拆,而且支持两种模式,分别是指定分拆的个数,或者分拆后每个文件的行数。

虽然有些功能不知道是干啥的。。但是不明觉厉。。并且以上功能大多都不需要输入太多的参数,一些功能默认已经开启,但是可以用参数关闭。

所以如果没有特殊需求,直接默认跑就好了至于如何关,请移步最上面的链接。

安装

  1. conda安装
      conda install fastp
  1. 源码安装
      git clone https://github.com/OpenGene/fastp.git
      cd fastp
      make
      sudo make install

但是经过测试,源码安装会有一个error,作为小白并不能搞定。。所以推荐用conda安装~

quick start

单端:

fastp -i in.fq -o out.fq

双端:

  fastp -i in_1.fq -o out_1.fq -I in_2.fq -O out_2.fq

报告解读

比较好的方面是会有before和after的对比报告,但是吧。。看着还挺不习惯的。。还是习惯用fastqc & multiqc再跑一遍看结果。。具体的内容就看最上面贴的微信链接吧~

How to cite it?

A paper for this tool is being written, and may be soon available in bioRxiv. If you want to cite this tool before it is completed, cite like this:
Shifu Chen, fastp: A fast FASTQ preprocessor with full features, (2017), GitHub repository, https://github.com/OpenGene/fastp

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面我来给你介绍一下如何使用fastp和vsearch进行质控和去重,以及如何进行OTU表和物种注释。 1. fastp质控 fastp是一个快速的对Illumina测序数据进行质控和修剪的工具。你可以使用这个工具进行数据质量控制和修剪。下面是一个使用fastp进行质控的简单命令: ``` fastp -i input.fastq -o output.fastq ``` 其中,`input.fastq`是你的原始fastq文件名,`output.fastq`是你处理后的fastq文件名。你可以使用`-h`选项来查看fastp的帮助文档,以了解更多参数和选项。 2. vsearch去重去嵌合体 vsearch是一个流行的工具,用于对高通量测序数据进行聚类、去冗余、去嵌合体等操作。你可以使用这个工具对fastp处理后的数据进行去重和去嵌合体。下面是一个使用vsearch进行去重和去嵌合体的简单命令: ``` vsearch --derep_fulllength input.fastq --output output.fasta --sizeout --minuniquesize 2 ``` 其中,`input.fastq`是你的fastq文件名,`output.fasta`是你处理后的fasta文件名。`--derep_fulllength`选项指定对全长序列进行去重,`--sizeout`选项指定输出每个序列的计数信息,`--minuniquesize 2`选项指定去除计数小于2的序列。你可以使用`-h`选项来查看vsearch的帮助文档,以了解更多参数和选项。 3. OTU表和物种注释 在得到去重后的fasta文件后,你可以使用OTU聚类算法(例如UPARSE或者DADA2)对序列进行聚类,得到OTU表。然后你可以使用一些物种注释工具(例如QIIME2或者MEGAN)对OTU进行物种注释。 由于这一步骤较为复杂,我无法在此一一列举详细的操作命令。如果你需要更具体的帮助,可以参考相关的生物信息学教材或者在线资源,或者向我们提出更具体的问题,我们会尽力回答你的问题。 希望这些信息能够帮助你进行生信分析,祝你好运!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值