第五章 RNA-seq分析
主要为RNA-seq相关知识,部分内容作笔记自查使用。如有错误或遗漏还请海涵,可评论或邮箱联系。
最后修改时间:2020-09-01 16:11:38 星期二
转录组研究方法
- 定性
鉴定出所有表达的转录本 - 定量
确定转录本各自的表达量
RNA-seq可以做什么
- Level 1:
- 每个基因的表达量是多少
- Level 2:
- 有哪些转录本?
- 有哪些可变剪切?
- 是否会有一种方式的可变剪切产生的前体mRNA(isoform),较为富集
- 不同样本之间是否有表达量差异
RNA-seq之前的技术
Real-Time qRT-PCR(实时荧光定量PCR)
转录本定量测量金标准,准确率极高,类似于DNA的一代测序
通过对经典PCR扩增反应中每一个循环产物荧光信号的实时检测,可以实现对起始模板的定量分析。可以在很大范围内定量的检测目标转录本的拷贝数,即表达水平。
- 优点:非常准确
- 缺点:通量低,一次只能测定1个转录本的表达水平;须事先知道待检测转录本的序列,不能用来发现未知转录本和基因
RNA-seq测序过程
- 将样本中RNA反转录为cDNA
- 将cDNA打碎为较小片段后上机测序
RNA-seq本质上是对转录本序列的随机抽样,因此其检测效力(power)和灵敏度(sensitivity)高度依赖于测序的深度。测序深度不够,就难以检出低拷贝的基因。哺乳动物转录组,经验规则是100~150x的coverage
RNA-seq mapping过程
- 向已知转录本上回贴
- 向参考基因组上回贴
在DNA转录成mRNA的过程中,内含子会被切掉,外显子会在剪切位点连接到一起。跨过剪切位点的reads称为junction reads。当回贴到基因组上时,junction reads是无法直接回贴的,需要准确的在剪切位点将其断开。
junction reads是一种可变剪切存在(如存在exon1和exon3直接相连)的直接证据,非常重要。
回贴junction reads的策略
策略1. join exon
- 基于已知转录本中所有exon,两两组合,构建所有可能的junctions的library。这个junction未必是已知的,而是所有可能的组合
- 首先采用和DNA reads类似的unspliced方式和参考基因组比对,将非junction reads回贴到基因组上
- 对于无法直接回帖的junction reads,拿来与第一步中构建的junction library进行比对
相当于DNA mapping算法在RNA-seq技术上的一个补丁。但对于以前未知的exon,该策略无能为力
策略2. split reads
- 首先采用和DNA reads类似的unspliced方式和参考基因组比对,将非junction reads回贴到基因组上
- 对于无法直接回帖的junction reads,参照BLAST的方法,将其切分成若干长度为k的seed,再使用这些seed来回贴,在更小的粒度上寻找junction site
- 将临近的已回贴seeds重新组合起来,得到全read的比对结果
速度比策略1慢,但不依赖于先验exon注释,因此可以发现新的exon乃至新的基因
现有工具一般会组合2个策略。先采用join exon策略快速检测已知的junction site,再利用split reads策略发现新的junction site
RNA-seq转录本组装
在mapping结束后,需要将reads重新组装成转录本。下文简述Cufflinks软件的组装算法
左上图上部,每一条带颜色的线段代表一个read。首先Cufflinks会去找不可能出现在同一个转录本中的reads,如左上图中红圈圈出的黄色和蓝色两条reads。可以出现在同一转录本中的reads,彼此相容,在左上图中涂上了同一种颜色
通过将每个相容read作为节点,并与和它最近且相容的节点连接,就可以得到重叠图(Overlap graph)。基于精简原则(parsimony principle),Cufflinks在图中选择能覆盖所有reads的路径中互不相连且最少的一组路径,作为最优路径。据此来得到最终的三个转录本集合
表达量计算
- 因为RNA-seq是随机抽样,因此map到特定转录本上的reads数目正比于表达量
- map到特定转录本上reads的数目,也正比于该转录本的长度和总测序深度
A转录本长度是B转录本的2倍,表达量相同时,map到A转录本上的reads数量应该是B的2倍
实验1的测序深度是实验2的2倍,因此相同转录本在实验1被map的reads数量应该是实验2的2倍
将reads计数归一化为表达量
C:map到该转录本上reads的总数
N:map成功的reads总数
L:该转录本的长度
通过考虑不同的误差因素,引入不同的生物学假设,可以构造不同的归一化方法。后续提出了效果更好的归一化方法TMM、DESeq等
事实上,为了更为准确的估计表达量,常采用EM等方法来反复迭代的考虑转录本组装与表达量估计