文献:RNA-seq数据分析最佳实践调查
本次阅读 Genome Biology杂志 2016年Online的RNA-seq数据分析方法的 Review论文,题目为:
A survey of best practices for RNA-seq data analysis
本文翻译来自该文章。
RNA是基因组和蛋白组的中间体,因此转录本的鉴定和定量是重要的生物学问题。该论文综述了RNA-seq项目中相关的各个步骤、每个步骤的局限、和其他组学的整合以及展望。
Note : 从摘要中可以发现本文综述分为两部分(1)现有RNA-seq数据分析各个步骤的详细描述;(2)RNA-seq与多组学技术整合和未来展望。
摘要:
RNA-seq应用广泛,但是没有一种分析流程适用于所有情况。作者综述了RNA-seq数据分析的主要步骤,包括:实验设计、质量控制、读取比对、基因和转录水平的定量、可视化、差异基因表达、可变剪接、功能分析、基因融合检测和 eQTL 定位。作者强调了每个步骤的挑战,讨论了小 RNA 的分析以及 RNA-seq 与其他功能基因组学技术的整合。
最后,作者讨论了正在改变转录组学现状的新技术的前景。
(一)实验设计:(如Fig. 1)
要以回答生物学问题为导向设计RNA-seq实验,其中主要包含文库类型、测序深度和重复次数
1.提取RNA
(1)OligodT富集mRNA
对于真核生物,当样本量足够时,RNA中90%以上为rRNA
,通常选择OligodT富集mRNA(1-2%尾部存在PolyA结构互补
)。mRNA通常容易降解,需要衡量mRNA的RNA完整指数RIN (RNA integrity number)。
(2)去除rRNA
有些活检样本不足,富集的方法提取RNA效果差。此时,选择降解rRNA来得到mRNA。对于细菌等样本,因为是原核生物,mRNA不存在PolyA的结构,上述方法同样失效
,也需要通过降解rRNA得到mRNA。
2.链特异型文库
通常Illumina测序的RNA-seq数据并未区分正链和负链,这使得反义转录和重叠表达的转录本定量无法区分。通常,链特异型文库通过dUTP标记方法,随后消化包含dUTP的链,以此得到特定链的RNA文库。
对于单端测序SE(single-end)
和双端测序PE(paired-end)
,双端测序的文库更长,这样有利于转录本组装和转录本亚型(isoform)的鉴定。对于高质量的参考基因组,SE测序数据已经够用,PE测序数据对于注释不佳的基因组效果更好。发帖时(2021年),目前市场测序价格下降明显,PE数据效果更好,SE测序的应用越来越少了,已经逐渐淘汰。
3.测序深度或文库大小
最佳的测序深度取决于实验目的,通常测序深度越深定量结果越准,更多的鉴定到更多的转录本
。有学者认为比对500万的reads已经足够定量中等表达和高表达的真核转录本,对于低表达的转录本需要1亿的reads。研究低复杂度的单细胞时,处理100万的reads,5万的reads已经足够定量高表达基因,甚至2万个reads可以区分组织细胞类型。
最佳的测序文库取决于目标实验的复杂度,实验证明增加测序深度确实可以改善转录本的鉴定和定量情况,但是可能会检测噪音或者脱靶转录本,饱和曲线可用于评估在给定测序深度下预期转录组覆盖率的改善
。
4.样本重复次数
一个关键的设计因素是重复次数。要考虑技术性重复、生物学重复和统计效力(power)
,这些是功效分析的一部分。充分规划测序实验
以避免技术偏差与良好的实验设计
同样重要,尤其是当实验涉及大量样本需要分批处理时。在这种情况下,包括对照、随机样本处理和测序运行的智能管理对于获得正确的数据至关重要。详细数据可以参考Table1信息。
(二)RNA-seq数据分析
实际上RNA-seq的分析非常多样,此部分作者主要描述了典型RNA-seq数据分析的步骤,包括质量控制
、有参和无参的数据比对
、计算基因和转录本的表达量
和差异表达基因鉴定
。此外,作者也讨论了可变剪切
、转录本融合
和小RNA表达
,最后讨论了可视化的工具包。
1.质量控制检查
RNA数据的获取包括几个部分:获取原始reads
、reads比对
和表达定量
。
(1)原始reads质控
原始reads的质量控制涉及序列质量
、GC含量
、接头adapter
、过表达的kmer
和重复的reads(duplicated reads)
,通过这些来检测测序错误
和PCR副产物和污染
。可接受的重复,kmer和GC含量是物种特异性的,这些数据对于相同实验的样本应该保持同质。作者建议丢弃差异超过30%的异常值。
FastQC是应用于Illumina reads的,而NGSQC可以应用于任何平台。通常3’端的末端碱基的测序质量下降,如果太低,需要剔除这些碱基以提高比对效果。FASTX-Toolkit和Trimmomatic等软件工具可用于丢弃低质量reads、修剪接头序列并剔除低质量碱基。
(2)Read 比对情况衡量标准
Reads通常比对到基因组或转录组。
一个重要的参数是比对百分比,反映了整体的测序准确性和DNA污染情况。
例如,期望的人类基因组中转录组的比对百分比应该为70%-90%
(取决于比对软件),其中很大一部分reads均可以较好地比对到有限数量的相同区域(多比对reads,multi-mapping read