准备工作:配置java环境或者在conda里下载软件Trimmomatic
我在VM里java环境的配置:安装JDK
创建并进入文件夹 : mkdir java && cd java
查看所有版本JDK : yum -y list java
下载所需要的版本,我下载的是java-1-8.0-openjdk : yum -y install java-1.8.0-openjdk
配置环境变量:vi ~/.bash_profile 添加java的路径
刷新:source ~/.bash_profile
到Trimmomatic官网查看需要下载的版本 http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic
我下载的是0.39版二进制的 : wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
再配置环境变量和刷新
Trimmomatic的使用:两种运行模式:PE(pair End)和SE(single End)
单末端测序:java -jar /PATH/Trimmomatic-0.39 SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
双末端测序数据:java -jar /PATH/Trimmomatic-0.39 PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
参数:
-threads 线程数,最大是CPU核数
-trimlog 生成日志名,强烈建议不开这个参数,生成的log文件巨大且大多数情况下,你是不会看的
-quiet 静默模式
与其他软件命令不同,Trimmomatic提供了多种修整步骤:
数据的碱基质量体系确认可参照 质量值体系 Phred33 和 Phred 64 的由来 及其在质量控制中的实际影响_phred33和phred64-CSDN博客
ILLUMINACLIP:从reads中剪切adapter和其他Illumina特定序列。进入Trimmomatic-0.39文件夹查看adapters,根据测序仪型号进行选择
adapters中文件的选择:目前的HiSeq系列和MiSeq系列用的都是TruSeq3,TruSeq2是以前GA2系列的测序仪所用的,已经很少见了。
PE模式中,输入文件有两个input_forward.fq.gz input_reverse.fq.gz输出文件有四个(output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz),其中过滤之后双末端序列都保留的是paired,只保留一端序列的就是unpaired
例子:数据fastqc的结果文件
java -jar /home/mumu/software/Trimmomatic-0.39/trimmomatic-0.39.jar PE -phred33 SRR25474921_1.fastq.gz SRR25474921_2.fastq.gz /PATH/SRR25474921_1_paired.fastq.gz /PATH/SRR25474921_1_unpaired.fastq.gz /\PATH/SRR25474921_2_paired.fastq.gz /PATH/SRR25474921_2_unpaired.fastq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:4:15 LEADING:3 TRAILING:3 MINLEN:36