摘要
RNA测序(RNA-seq
)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具。随着二代测序技术 (NGS)的发展,RNA-seq的应用也越来越广。现已经可以应用于很多RNA层面的研究,比如单细胞基因表达、RNA翻译(translatome
)和RNA结构组(structurome
结构组学)。新的有意思的应用,如空间转录组学(spatialomics
)也在积极研究中。通过结合新兴的三代长读长long-read
和direct RNA-seq
技术,以及更好的计算分析工具,RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA折叠以及分子互作发挥功能等。
前言
RNA测序(RNA-seq)自诞生起就应用于分子生物学,帮助理解各个层面的基因功能。现在的RNA-seq更常用于分析差异基因(DGE, differential gene expression
),而从得到差异基因表达矩阵,该标准工作流程的基本分析步骤一直是没有太大变化:
-
始于湿实验,提取RNA,富集mRNA或消除rRNA,合成cDNA和构建测序文库。
-
然后在高通量平台(通常是
Illumina
)上进行测序,每个样本测序reads深度为10-30 Million reads。 -
最后一步是计算:比对/拼装测序reads到转录本,计数与转录本比对上的reads数定量,样本间过滤和标准化,样本组间基因/转录本统计差异分析。
早期的RNA-seq实验从细胞群(如来源于某个组织或器官的细胞)中得到DGE数据,并可以应用于很多物种,如玉米(Zea mays
),拟南芥(Arabiodopsis thaliana
),酿酒酵母(Saccharomyces cerevisae
),鼠(Mus musculus
)和人(Homo sapiens
)。虽然RNA-seq这个词通常包含很多不同的RNA相关的方法或生物应用,但DGE分析始终是它的主要应用(表1),并且是DGE研究的常规工具。
RNA-seq的广泛应用促进了对许多生物层面的理解,如揭示了mRNA剪接的复杂性、非编码RNA和增强子RNA调控基因表达的机制。RNA-seq的发展和进步一直离不开技术发展的支持(湿实验方面和计算分析方面),且与先前的基于基因芯片的技术比起来,获得的信息更多、偏好性更小。到目前为止,已从标准的RNA-seq流程中衍生出多达100种不同的应用。大部分应用都是基于Illumina short-read
测序,但最近基于long-read RNA-seq
和direct RNA sequencing (dRNA-seq)
的方法可以帮助解决Illumina short-read
技术处理不了的问题。
本文中,我们先熟悉'baseline'流程,用short-read RNA-seq技术分析DGE。先描述短读长测序的文库构建过程、实验设计注意事项和计算分析流程,探究其应用如此广泛的原因。然后描述单细胞转录组和空间转录组的发展和应用。我们会举例说明RNA-seq在RNA生物学关键研究中的应用,包括转录和翻译的动力学分析,RNA结构,RNA-RNA和RNA-蛋白质间相互作用等。最后我们小小地展望一下RNA-seq的未来,如单细胞和空间转录组是否也会是以后的常规分析,在什么情况下long reads会替代short reads RNA-seq。不过篇幅有限,本文对RNA-seq分析还是有照顾不到的地方,比如典型的有非编码转录组,原核转录组和表观转录组。