Trim Galore是一个非常流行的用于「去接头序列」的软件,用于处理高通量测序得到的原始数据。通常我们从测序公司拿到数据后,第一步就是评估数据的质量以及对raw data去接头处理。公司拿来的数据通常附带了clean data以及去接头的说明文件,我自己重新实现了一下trim的过程。参数都是根据公司的说明文件来设定的。
cutadapt软件可以对NGS数据进行质量过滤,FastQC软件可以查看NGS数据的质量分布,trim_galore将这两个软件封装到一起,使用起来更加的方便。
# 1. conda 安装
conda install trim-galore
trim_galore -help
# 2. 双端数据
# 加--paired参数
nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./ $fq1 $fq2 &
# 3. 单端数据
fq="/home/zheng/test/SRR_data/SRR5179121/SRR5179121.fastq"
nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 -o ./ $fq &
# 4. 批量处理,
# 处理当前文件夹下所有的fastq文件,
# 注意新生成的文件又被处理了,可以把生成的文件放到另一个文件夹下
for fq in `ls |grep fastq$`; do nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 -o ./ $fq ; done &
参数说明:
-q 25 # 设定Phred quality score阈值是25
-phred33 # 指定使用phred33碱基质量值体系
--length 35 # 输出reads长度阈值,小于35bp的reads会被抛弃
--stringency 3 # 可以忍受的前后adapter重叠的碱基数为3
--paired # 对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。
./ $fq1 $fq2 输入文件
参考:
https://github.com/FelixKrueger/TrimGalore
https://www.yisu.com/zixun/560350.html
https://cloud.tencent.com/developer/article/1842693