去除报错_转录组分析 | 使用trimgalore去除低质量的reads和adaptor

本文详细介绍了如何使用Trim Galore工具对转录组数据进行质控,包括去除低质量碱基和adapter。通过设置不同参数,如--quality、--adapter等,对双端测序数据进行处理,并通过编写脚本批量处理多个样本。处理后的数据文件大小显著减小,同时提供了处理报告。
摘要由CSDN通过智能技术生成

26be9e442fcd25d9eaf24a2e7a9f2337.gif

TCGA | GEO | 文献阅读 | 数据库 理论知识

R语言 | Bioconductor | 服务器与Linux

15ecf03ae11e1b5c4acd828783c49fad.png

我前面已经介绍了转录组分析中利用fastqc这个软件来查看测序质量【文章:转录组分析 | fastqc进行质控与结果解读】,通过分析结果报告,我测序的数据还是可以的,但不管怎样,还是要清除一些不好的reads。这里我用trim-galore去除低质量的reads和adaptor。

一.Trim Galore介绍

Trim Galore是对FastQC和Cutadapt的包装。适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA测序平台的双端和单端数据。主要功能包括两步:
首先去除低质量碱基,然后去除3' 末端的adapter, 如果没有指定具体的adapter,程序会自动检测前1million的序列,然后对比前12-13bp的序列是否符合以下类型的adapter:
● Illumina:   AGATCGGAAGAGC
● Small RNA:  TGGAATTCTCGG
● Nextera:    CTGTCTCTTATA


当然,Trim Galore是可以自动检测adapter。

接下来我们看软件参数:

--quality:设定Phred quality score阈值,默认为20。我后面分析改成25,稍微严格一些。
--phred33::选择-phred33或者-phred64,表示测序平台使用的Phred quality score。具体怎么选择,看你用什么测序平台,这个在上一篇文章中的报告中就有【转录组分析 | fastqc进行质控与结果解读】。

6817529bba90eefd6bba913f66c2ee89.png

具体是-phred33还是-phred64我在文章【生信中常见的数据文件格式】中有提到。

--adapter:输入adapter序列。也可以不输入,Trim Galore!会自动寻找可能性最高的平台对应的adapter。自动搜选的平台三个,也直接显式输入这三种平台,即--illumina、--nextera和--small_rna。
--stringency:设定可以忍受的前后adapter重叠的碱基数,默认为1(非常苛刻)。可以适度放宽,因为后一个adapter几乎不可能被测序仪读到。
--length:设定输出reads长度阈值,小于设定值会被抛弃。
--paired:对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。
--retain_unpaired:对于双端测序结果,一对reads中,如果一个read达到标准,但是对应的另一个要被抛弃,达到标准的read会被单独保存为一个文件。
--gzip和--dont_gzip:清洗后的数据zip打包或者不打包。
--output_dir:输入目录。需要提前建立目录,否则运行会报错。
-- trim-n : 移除read一端的reads

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值