Trim-galore/fastp对数据的过滤

       往往我们质控完之后的数据有着各种各样的问题,比如接头没去、低质量的reads等,因此在继续进行分析的时候我们要使用trim-galore/fastp对数据进行过滤。

输入:之前经过质控的fastq文件或者或者fastq.gz文件

代码:

# 激活小环境
conda activate rna

# 新建文件夹trim_galore
cd $.../data/cleandata/trim_galore

# 多个样本 vim trim_galore.sh,以下为sh的内容,创建脚本
rawdata=$.../data/rawdata
cleandata=$.../data/cleandata/trim_galore
cat ID | while read id
do
  trim_galore -q 20 --length 20 --max_n 3 --stringency 3 --fastqc --paired
 -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz
done

# 提交任务到后台
nohup sh trim_galore.sh >trim_galore.log &

# 使用MultiQc整合FastQC结果
multiqc *.zip

输出:过滤之后的fastq文件或者或者fastq.gz文件

Fastp

输入:之前经过质控的fastq文件或者或者fastq.gz文件

cd $.../data/cleandata/fastp

# 定义文件夹:vim fastp.sh
cleandata=$H.../data/cleandata/fastp/
rawdata=$.../data/rawdata/
cat ../trim_galore/ID | while read id
do
fastp -l 36 -q 20 --compression=6 \
  -i ${rawdata}/${id}_1.fastq.gz \
  -I ${rawdata}/${id}_2.fastq.gz \
  -o ${cleandata}/${id}_clean_1.fq.gz \
  -O ${cleandata}/${id}_clean_2.fq.gz \
  -R ${cleandata}/${id} \
  -h ${cleandata}/${id}.fastp.html \
  -j ${cleandata}/${id}.fastp.json 
done

# 运行fastp脚本
nohup sh fastp.sh >fastp.log &

输出: 过滤之后的fastq文件或者或者fastq.gz文件

讨论trimgalore与fastp的不同

1.fastp的运行速度相对会快很多,去adapter更准确、高效

2.输出文件的名字写法不同 

   trimgalore:{id}_1_val_1.fq.gz  和 {id}_2_val_2.fq.gz

   fastp:SRR***_1.fastp.fq.gz  SRR***_2.fastp.fq.gz

3.fastp之后质控会输出一个KMER统计表格

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值