用fastp对转录组数据做QC

最新推荐文章于 2024-04-20 17:10:38 发布

weixin_34195546

最新推荐文章于 2024-04-20 17:10:38 发布

阅读量816

点赞数 1

文章标签： git c/c++

原文链接：https://yq.aliyun.com/articles/664104

版权

链接

fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件

github地址

看到介绍的时候是真的心动不已↓↓↓

fastp可以仅仅扫描 FASTQ 文件一次，就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能，而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右，因为它使用 C++开发，处处使用了高效算法，而且完美支持多线程！

这不就是我这个初入门的小白所梦寐以求的神器嘛~

fastp软件的十大功能

对数据自动进行全方位质控，生成人性化的报告；
过滤功能(低质量,太短,太多N......)；
对每一个序列的头部或尾部，计算滑动窗内的质量均值，并将均值较低的子序列进行切除(类似 Trimmomatic 的做法,但是快非常多)；
全局剪裁 (在头/尾部，不影响去重)，对于 Illumina 下机数据往往最后一到两个 cycle 需要这样处理；
去除接头污染。厉害的是，你不用输入接头序列，因为算法会自动识别接头序列并进行剪裁；
对于双端测序(PE)的数据，软件会自动查找每一对read的重叠区域，并对该重叠区域中不匹配的碱基对进行校正；
去除尾部的 polyG。对于NextSeq/NovaSeq 的测序数据，因为是两色法发光，polyG 是常有的事，所以该特性对该两类测序平台默认打开；
对于PE数据中的overlap区间中不一致的碱基对，依据质量值进行校正；
可以对带分子标签(UMI)的数据进行预处理，不管UMI在插入片段还是在index 上，都可以轻松处理；
可以将输出进行分拆，而且支持两种模式，分别是指定分拆的个数，或者分拆后每个文件的行数。

虽然有些功能不知道是干啥的。。但是不明觉厉。。并且以上功能大多都不需要输入太多的参数，一些功能默认已经开启，但是可以用参数关闭。

所以如果没有特殊需求，直接默认跑就好了_{至于如何关，请移步最上面的链接。}

安装

conda安装

      conda install fastp

源码安装

      git clone https://github.com/OpenGene/fastp.git
      cd fastp
      make
      sudo make install

但是经过测试，源码安装会有一个error，作为小白并不能搞定。。所以推荐用conda安装~

quick start

单端：

fastp -i in.fq -o out.fq

双端：

  fastp -i in_1.fq -o out_1.fq -I in_2.fq -O out_2.fq

报告解读

比较好的方面是会有before和after的对比报告，但是吧。。看着还挺不习惯的。。还是习惯用fastqc & multiqc再跑一遍看结果。。具体的内容就看最上面贴的微信链接吧~

How to cite it?

A paper for this tool is being written, and may be soon available in bioRxiv. If you want to cite this tool before it is completed, cite like this:
Shifu Chen, fastp: A fast FASTQ preprocessor with full features, (2017), GitHub repository, https://github.com/OpenGene/fastp

weixin_34195546

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
用fastp对转录组数据做QC

链接fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件github地址看到介绍的时候是真的心动不已↓↓↓fastp可以仅仅扫描 FASTQ 文件一次，就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能，而且速度上比仅仅使用 Tri...
复制链接

扫一扫