写在前面
fastp
是用于处理fastq文件,基于C++,支持多线程,包含fastQC和Trimmomatic的一些功能。这里主要给出常用参数的一些说明。
参数的说明主要参考githup上的使用说明,可能有翻译不到位或不恰当的情况,请以github上的说明为准。
参考文献
fastp功能
- 去接头
- 碱基矫正
- 滑动窗口质量值剪切
- 切ployG/ployX尾巴
- 处理分子标签(UMI)
- 分割输出结果
- duplicate率的评估
- 过表达序列分析
- 质控结果报告
类似软件比较
fastp的文献中指出其运行速度比Trimmomatic
快近5倍。
fastp
参考文献也对于去除adapter的性能作了比较,X轴是搜索adapter时允许碱基错配数,Y轴是adapter序列数。
下面是各软件比对情况的比较结果:
简单示例
## 双端数据
$ fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz
## 去UMI简单示例
$ cat R1.fq
@NS500713:64:HFKJJBGXY:1:11101:1675:1101 1:N:0:TATAGCCT+GACCCCCA
AAAAAAAAGCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA
+
6AAAAAEEEEE/E/EA/E/AEA6EE//AEE66/AAE//EEE/E//E/AA/EEE/A/AEE/EEA//EEEEEEEE6EEAA
$ fastp -i R1.fq -o out.R1.fq -U --umi_loc=read1 --umi_len=8
$ cat out.R1.fq
@NS500713:64:HFKJJBGXY:1:11101:1675:1101:AAAAAAAA 1:N:0:TATAGCCT+GACCCCCA
GCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA
+
EEE/E/EA/E/AEA6EE//AEE66/AAE//EEE/E//E/AA/EEE/A/AEE/EEA//EEEEEEEE6EEAA
常用参数说明
-i, --in1
R1文件输入;
-I, --in2
R2文件输入;
-o, --out1
R1文件处理后的输出;
-O, --out2
R2文件处理后的输出;
-h, --html
设置输出ht