第五章 RNA-seq分析

93 篇文章 104 订阅
41 篇文章 14 订阅

第五章 RNA-seq分析


主要为RNA-seq相关知识,部分内容作笔记自查使用。如有错误或遗漏还请海涵,可评论或邮箱联系。
最后修改时间:2020-09-01 16:11:38 星期二


转录组研究方法

  • 定性
    鉴定出所有表达的转录本
  • 定量
    确定转录本各自的表达量

RNA-seq可以做什么

  • Level 1:
    • 每个基因的表达量是多少
  • Level 2:
    • 有哪些转录本?
    • 有哪些可变剪切?
    • 是否会有一种方式的可变剪切产生的前体mRNA(isoform),较为富集
    • 不同样本之间是否有表达量差异

RNA-seq之前的技术

Real-Time qRT-PCR(实时荧光定量PCR)

转录本定量测量金标准,准确率极高,类似于DNA的一代测序

通过对经典PCR扩增反应中每一个循环产物荧光信号的实时检测,可以实现对起始模板的定量分析。可以在很大范围内定量的检测目标转录本的拷贝数,即表达水平。

  • 优点:非常准确
  • 缺点:通量低,一次只能测定1个转录本的表达水平;须事先知道待检测转录本的序列,不能用来发现未知转录本和基因

RNA-seq测序过程

  1. 将样本中RNA反转录为cDNA
  2. 将cDNA打碎为较小片段后上机测序

RNA-seq本质上是对转录本序列的随机抽样,因此其检测效力(power)和灵敏度(sensitivity)高度依赖于测序的深度。测序深度不够,就难以检出低拷贝的基因。哺乳动物转录组,经验规则是100~150x的coverage


RNA-seq mapping过程

  1. 向已知转录本上回贴
  2. 向参考基因组上回贴

在DNA转录成mRNA的过程中,内含子会被切掉,外显子会在剪切位点连接到一起。跨过剪切位点的reads称为junction reads。当回贴到基因组上时,junction reads是无法直接回贴的,需要准确的在剪切位点将其断开。

junction reads是一种可变剪切存在(如存在exon1和exon3直接相连)的直接证据,非常重要。


回贴junction reads的策略

策略1. join exon

  1. 基于已知转录本中所有exon,两两组合,构建所有可能的junctions的library。这个junction未必是已知的,而是所有可能的组合
  2. 首先采用和DNA reads类似的unspliced方式和参考基因组比对,将非junction reads回贴到基因组上
  3. 对于无法直接回帖的junction reads,拿来与第一步中构建的junction library进行比对

相当于DNA mapping算法在RNA-seq技术上的一个补丁。但对于以前未知的exon,该策略无能为力


策略2. split reads

  1. 首先采用和DNA reads类似的unspliced方式和参考基因组比对,将非junction reads回贴到基因组上
  2. 对于无法直接回帖的junction reads,参照BLAST的方法,将其切分成若干长度为k的seed,再使用这些seed来回贴,在更小的粒度上寻找junction site
  3. 将临近的已回贴seeds重新组合起来,得到全read的比对结果

速度比策略1慢,但不依赖于先验exon注释,因此可以发现新的exon乃至新的基因

现有工具一般会组合2个策略。先采用join exon策略快速检测已知的junction site,再利用split reads策略发现新的junction site


RNA-seq转录本组装

在mapping结束后,需要将reads重新组装成转录本。下文简述Cufflinks软件的组装算法

左上图上部,每一条带颜色的线段代表一个read。首先Cufflinks会去找不可能出现在同一个转录本中的reads,如左上图中红圈圈出的黄色和蓝色两条reads。可以出现在同一转录本中的reads,彼此相容,在左上图中涂上了同一种颜色

通过将每个相容read作为节点,并与和它最近且相容的节点连接,就可以得到重叠图(Overlap graph)。基于精简原则(parsimony principle),Cufflinks在图中选择能覆盖所有reads的路径中互不相连且最少的一组路径,作为最优路径。据此来得到最终的三个转录本集合


表达量计算

  1. 因为RNA-seq是随机抽样,因此map到特定转录本上的reads数目正比于表达量
  2. map到特定转录本上reads的数目,也正比于转录本的长度和总测序深度

    A转录本长度是B转录本的2倍,表达量相同时,map到A转录本上的reads数量应该是B的2倍

    实验1的测序深度是实验2的2倍,因此相同转录本在实验1被map的reads数量应该是实验2的2倍

将reads计数归一化为表达量


C:map到该转录本上reads的总数
N:map成功的reads总数
L:该转录本的长度

通过考虑不同的误差因素,引入不同的生物学假设,可以构造不同的归一化方法。后续提出了效果更好的归一化方法TMM、DESeq

事实上,为了更为准确的估计表达量,常采用EM等方法来反复迭代的考虑转录本组装与表达量估计

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值