RNA-seq Review：RNA-seq数据分析

最新推荐文章于 2025-04-03 19:50:09 发布

我是大南瓜

最新推荐文章于 2025-04-03 19:50:09 发布

阅读量1.2w

点赞数 5

分类专栏：文献阅读文章标签：数据分析数据挖掘

本文链接：https://blog.csdn.net/cfc424/article/details/120765991

版权

文献：RNA-seq数据分析最佳实践调查

本次阅读 Genome Biology杂志 2016年Online的RNA-seq数据分析方法的 Review论文，题目为：
A survey of best practices for RNA-seq data analysis
本文翻译来自该文章。

RNA是基因组和蛋白组的中间体，因此转录本的鉴定和定量是重要的生物学问题。该论文综述了RNA-seq项目中相关的各个步骤、每个步骤的局限、和其他组学的整合以及展望。

Note ：从摘要中可以发现本文综述分为两部分（1）现有RNA-seq数据分析各个步骤的详细描述；（2）RNA-seq与多组学技术整合和未来展望。

摘要：
RNA-seq应用广泛，但是没有一种分析流程适用于所有情况。作者综述了RNA-seq数据分析的主要步骤，包括：实验设计、质量控制、读取比对、基因和转录水平的定量、可视化、差异基因表达、可变剪接、功能分析、基因融合检测和 eQTL 定位。作者强调了每个步骤的挑战，讨论了小 RNA 的分析以及 RNA-seq 与其他功能基因组学技术的整合。
最后，作者讨论了正在改变转录组学现状的新技术的前景。

（一）实验设计：（如Fig. 1）
要以回答生物学问题为导向设计RNA-seq实验，其中主要包含文库类型、测序深度和重复次数

1.提取RNA
（1）OligodT富集mRNA
对于真核生物，当样本量足够时，RNA中90%以上为rRNA，通常选择OligodT富集mRNA（1-2%尾部存在PolyA结构互补）。mRNA通常容易降解，需要衡量mRNA的RNA完整指数RIN (RNA integrity number)。

（2）去除rRNA
有些活检样本不足，富集的方法提取RNA效果差。此时，选择降解rRNA来得到mRNA。对于细菌等样本，因为是原核生物，mRNA不存在PolyA的结构，上述方法同样失效，也需要通过降解rRNA得到mRNA。

2.链特异型文库
通常Illumina测序的RNA-seq数据并未区分正链和负链，这使得反义转录和重叠表达的转录本定量无法区分。通常，链特异型文库通过dUTP标记方法，随后消化包含dUTP的链，以此得到特定链的RNA文库。

对于单端测序SE（single-end）和双端测序PE（paired-end），双端测序的文库更长，这样有利于转录本组装和转录本亚型（isoform）的鉴定。对于高质量的参考基因组，SE测序数据已经够用，PE测序数据对于注释不佳的基因组效果更好。发帖时（2021年），目前市场测序价格下降明显，PE数据效果更好，SE测序的应用越来越少了，已经逐渐淘汰。

3.测序深度或文库大小
最佳的测序深度取决于实验目的，通常测序深度越深定量结果越准，更多的鉴定到更多的转录本。有学者认为比对500万的reads已经足够定量中等表达和高表达的真核转录本，对于低表达的转录本需要1亿的reads。研究低复杂度的单细胞时，处理100万的reads，5万的reads已经足够定量高表达基因，甚至2万个reads可以区分组织细胞类型。

最佳的测序文库取决于目标实验的复杂度，实验证明增加测序深度确实可以改善转录本的鉴定和定量情况，但是可能会检测噪音或者脱靶转录本，饱和曲线可用于评估在给定测序深度下预期转录组覆盖率的改善。

4.样本重复次数
一个关键的设计因素是重复次数。要考虑技术性重复、生物学重复和统计效力（power），这些是功效分析的一部分。充分规划测序实验以避免技术偏差与良好的实验设计同样重要，尤其是当实验涉及大量样本需要分批处理时。在这种情况下，包括对照、随机样本处理和测序运行的智能管理对于获得正确的数据至关重要。详细数据可以参考Table1信息。

在这里插入图片描述

（二）RNA-seq数据分析
实际上RNA-seq的分析非常多样，此部分作者主要描述了典型RNA-seq数据分析的步骤，包括质量控制、有参和无参的数据比对、计算基因和转录本的表达量和差异表达基因鉴定。此外，作者也讨论了可变剪切、转录本融合和小RNA表达，最后讨论了可视化的工具包。

1.质量控制检查
RNA数据的获取包括几个部分：获取原始reads、reads比对和表达定量。
（1）原始reads质控
原始reads的质量控制涉及序列质量、GC含量、接头adapter、过表达的kmer和重复的reads（duplicated reads），通过这些来检测测序错误和PCR副产物和污染。可接受的重复，kmer和GC含量是物种特异性的，这些数据对于相同实验的样本应该保持同质。作者建议丢弃差异超过30%的异常值。

FastQC是应用于Illumina reads的，而NGSQC可以应用于任何平台。通常3’端的末端碱基的测序质量下降，如果太低，需要剔除这些碱基以提高比对效果。FASTX-Toolkit和Trimmomatic等软件工具可用于丢弃低质量reads、修剪接头序列并剔除低质量碱基。

（2）Read 比对情况衡量标准

Reads通常比对到基因组或转录组。
一个重要的参数是比对百分比，反映了整体的测序准确性和DNA污染情况。例如，期望的人类基因组中转录组的比对百分比应该为70%-90%（取决于比对软件），其中很大一部分reads均可以较好地比对到有限数量的相同区域（多比对reads，multi-mapping read

最低0.47元/天解锁文章