RNA-seq数据分析——质量控制和预处理的软件

质量问题通常来源于测序本身或前面的文库制备。

  • 它们包括可信度低的碱基、序列特异性差的偏差、3’/5’位置偏差、聚合酶链反应(PCR)假象、未修剪的接头,以及序列污染。
  • 这些问题可能严重影响参考作图、组装及表达的估计,但这些问题很多可以通过过滤、修剪、纠错或偏差订正被矫正。
  • 有些问题不能被纠正,但在解释结果时至少应该意识到它们。

读段的质量检查工具包括 FastQC 和 PRINSEQ,它们检查若干个质量指标,并提供可视化的报告。PRINSEQ软件包还提供过滤和修剪功能。

FastQC

  • FastQC可以作为一个独立的Java程序使用,具有图形用户界面,也容易在命令行上使用。它还集成在 Galaxy 和 Chipster 平台上,这两个平台为大量的分析工具提供了GUI。
  • FastQC相对较快,只需要几分钟来运行数千万的读段。
  • 输入的文件可以是 FASTQ(未压缩或压缩的)或 SAM/BAM 文件。
  • 除了列出读段的数目及其质量编码,FastQC 还报告并可视化有关的碱基质量和内容、读段长度及 k-mer 内容的信息,也有含糊不清的碱基、过度代表的序列和重复的信息。

PRINSEQ

  • PRINSEQ 是一个Web程序,也提供了一个可使用命令行的单机板。它在Chipster GUI中也是可用的。
  • PRINSEQ 质量控制报告包括读段的数目及其长度分布、碱基质量分布、序列复杂性、GC含量、模糊碱基(N)的存在、polyA/T 尾巴、重复和接头。如果检测到这些方面的任何问题,PRINSEQ的修剪和过滤选项提供各种不同的方式来处理它们。
  • PRINSEQ 接受未压缩的 FASTQ、FASTA 和 QUAL 文件。
  • 质量报告、修剪及过滤是用 Perl 程序 prinseq-lite.pl 完成的。可以在一个命令中结合许多修剪和过滤选项。其处理顺序不依赖如何在命令中列出它们,因为它是在 PRINSEQ 中硬编码的。
  • PRINSEQ 可产生文本或 html 格式的质量报告。为了创建一个 html 报告,需要两个命令:
#第一个制作一个临时的图形文件:
prinseq-lite.pl -fastq reads.fastq -phred64 -out_good null -out_bad null -graph_data graph
## 由于不执行任何预处理,因此不会有任何接受的或丢弃的读段,将这些命令的输出文件(-out_good, -out_bad)设置为 null。
## 添加了限定符 -phred64, 因为示例数据使用 Illumina 的旧的质量编码。
## 可以只要求质量统计量的一个子集,以减少内存消耗和运行时间。例如,添加 -graph_stats ld,gc,qd,ns,pt,ts,de 将跳过序列复杂性和二核苷酸计算,并只报告精确的重复(而不是还要报告 5'端和 3'端重复)。

# 图形文件用于创建 html 文件。
# -o 参数给出文件前缀,因此该命令生成一个文件 QCreport.html:
prinseq-graphs.pl -i graph -html_all -o QCreport 

Trimmomatic

  • Trimmomatic 是一个基于Java的多功能的工具,用于预处理读段。可以通过命令行或在 Galaxy 或 Chipster 中通过 GUI 使用它。
  • Trimmomatic 可以删除接头,而且以基于质量的不同的方式对读段进行修剪。
  • 它也可以基于质量和长度对读段进行过滤,并将碱基质量从一种编码系统转换成另一种。
  • 可以使用一个命令执行集合步骤,按所需的顺序列出它们。
  • 输入和输出是 FASTQ 文件,可以被压缩。
  • Trimmomatic 是多线程的,所以运行非常快。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

谙隅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值