去除报错_转录组分析 | 使用trimgalore去除低质量的reads和adaptor

最新推荐文章于 2024-08-03 18:44:55 发布

沈逸老师

最新推荐文章于 2024-08-03 18:44:55 发布

阅读量3.8k

点赞数 2

文章标签：去除报错

本文链接：https://blog.csdn.net/weixin_29093169/article/details/112678288

版权

本文详细介绍了如何使用Trim Galore工具对转录组数据进行质控，包括去除低质量碱基和adapter。通过设置不同参数，如--quality、--adapter等，对双端测序数据进行处理，并通过编写脚本批量处理多个样本。处理后的数据文件大小显著减小，同时提供了处理报告。

摘要由CSDN通过智能技术生成

TCGA | GEO | 文献阅读 | 数据库 | 理论知识

R语言 | Bioconductor | 服务器与Linux

我前面已经介绍了转录组分析中利用fastqc这个软件来查看测序质量【文章：转录组分析 | fastqc进行质控与结果解读】，通过分析结果报告，我测序的数据还是可以的，但不管怎样，还是要清除一些不好的reads。这里我用trim-galore去除低质量的reads和adaptor。

一.Trim Galore介绍

Trim Galore是对FastQC和Cutadapt的包装。适用于所有高通量测序，包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA测序平台的双端和单端数据。主要功能包括两步：
首先去除低质量碱基，然后去除3' 末端的adapter, 如果没有指定具体的adapter，程序会自动检测前1million的序列，然后对比前12-13bp的序列是否符合以下类型的adapter:
● Illumina: AGATCGGAAGAGC
● Small RNA: TGGAATTCTCGG
● Nextera: CTGTCTCTTATA

当然，Trim Galore是可以自动检测adapter。

接下来我们看软件参数：

--quality：设定Phred quality score阈值，默认为20。我后面分析改成25，稍微严格一些。
--phred33：：选择-phred33或者-phred64，表示测序平台使用的Phred quality score。具体怎么选择，看你用什么测序平台，这个在上一篇文章中的报告中就有【转录组分析 | fastqc进行质控与结果解读】。

具体是-phred33还是-phred64我在文章【生信中常见的数据文件格式】中有提到。

--adapter：输入adapter序列。也可以不输入，Trim Galore!会自动寻找可能性最高的平台对应的adapter。自动搜选的平台三个，也直接显式输入这三种平台，即--illumina、--nextera和--small_rna。
--stringency：设定可以忍受的前后adapter重叠的碱基数，默认为1(非常苛刻)。可以适度放宽，因为后一个adapter几乎不可能被测序仪读到。
--length：设定输出reads长度阈值，小于设定值会被抛弃。
--paired：对于双端测序结果，一对reads中，如果有一个被剔除，那么另一个会被同样抛弃，而不管是否达到标准。
--retain_unpaired：对于双端测序结果，一对reads中，如果一个read达到标准，但是对应的另一个要被抛弃，达到标准的read会被单独保存为一个文件。
--gzip和--dont_gzip：清洗后的数据zip打包或者不打包。
--output_dir：输入目录。需要提前建立目录，否则运行会报错。
-- trim-n : 移除read一端的reads

最低0.47元/天解锁文章

沈逸老师

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫