trimmomatic处理Illumina 平台产生的fastq数据,支持 fastq以及gzip 和 bzip2 压缩文件。
1. 处理PE数据
trimmomatic PE test_read1.fq test_read2.fq \
-phred33 \
out_read1.fq test_read1_unpaired.fq \
out_read2.fq test_read2_unpaired.fq \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:8:TRUE \
LEADING:3 TRAILING:3 \
SLIDINGWINDOW:4:15 MINLEN:36
参数说明:
test_read1.fq test_read2.fq -- 输入文件read1 和 read2 ,可以是gzip 和 bzip2 压缩文件。
-phred33 -- 质量体系,可以不写,程序自动推测。
out_read1.fq test_read1_unpaired.fq -- read1处理后的read和不配对的read
out_read2.fq test_read2_unpaired.fq -- read2处理后的read和不配对的read
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:8:TRUE --
- TruSeq3-PE.fa fasta格式的接头序列文件,不写路径,默认在trimmomatic(带版本号)/adapters 下,可以根据建库情况自定义接头序列。
- ":2" # <seed mismatches>是将接头序列的一段(不超过16bp)作为seed,与reads进行比对,能够容忍的最大错配(mismatch)数,这里是最多2个错配
- ":30" # <palindrome clip threshold>是 a-R1, a-R2的比对分值阈值,达到阈值,才进行切除,这里设置阈值为30(大约比对50bp碱基)
- ":10" # <simple clip threshold>是任意(接头)序列与read比对最低分阈值,大于这个阈值,才进行切除,这里设置阈值为10(大约比对17bp碱基)
- ":8" # <minAdapterLength>只作用于Palindrome模式,是设置检测到接头序列的最小长度(默认为8,甚至可设置为1)
- ":true" # <keepBothReads>只作用于palindrome模式,是设置是否保留反向链,这里是说去除接头序列后,由于正反链包含相同的序列信息(尽管序列是反向互补的),默认情况(":false")下会去除反向链,设置为":True"则保留反向链
LEADING:3-- 从 reads 的起始端开始切除质量值低于3(设定的阈值)的碱基,直到有一个碱基其质量值达到阈值。
Q = -10 *log10(P) Q质量分数 ,Q+33值 (十进制)转化为对应的ASCII码字母或者字符, 就是phred33质量体系,P: 错误率, Q = 3 得到 P(错误率)大概为50%
TRAILING:3 --从 reads 的末端开始切除质量值低于3(设定阈值)的碱基,直到有一个碱基质量值达到阈值。
SLIDINGWINDOW:4:15 -- 滑窗剪切,从read 5‘锻扫描寻找切点,设置 4bp 窗口,碱基平均质量低于15(阈值)就被切除。
MINLEN:36-- 去掉处理后短于36的序列。
2. 处理SE数据
trimmomatic SE -phred33 test.fastq test_trim.fastq ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
Usage:
PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>...
or:
SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...