第三章 RNA测序

  RNA测序(RNA Sequencing,简称RNA-Seq,也被称为全转录物组鸟枪法测序Whole Transcriptome Shotgun Sequencing,简称WTSS),是基于二代测序技术研究转录组学的方法,可以快速获取给定时刻的一个基因组中RNA的种类和数量。

RNA-Seq

  • RNA-Seq有助于查看基因的不同转录本、转录后修饰、基因融合、突变/SNP和基因表达随时间的变化,或在不同组中基因表达的差异。

  • RNA-Seq除了可以查看mRNA转录本,还可以查看总RNA、小RNA,例如miRNA、tRNA和核糖体RNA。

  • RNA-Seq可用于确定外显子/内含子边界,并验证或修正已注释的5'和3'基因边界。

  • RNA-Seq最新的研究包括单细胞测序和固定组织的原位测序。

文库制备

  RNA的cDNA文库制备通常包括如下几个步骤:RNA提取和分离、RNA类型选择和消化、cDNA合成。但不同的平台可能会有所不同。

RNA-Seq library preparation

分析

转录本组装

  有两种策略将测序数据用于转录本组装:

  1. 重头组装:这种方法不需要参考基因组来重组转录组,并且通常用于基因组未知、不完整或者差别很大时使用。使用测序read从头组装时面临的挑战包括:1)遇到重叠群时确定哪些片段应该连接在一起成为连续序列; 2)测序错误或人工错误的不稳定性;3)计算效率。从头组装的主要算法从重叠图转换为de Bruijn图,使用de Bruijn图的汇编程序有Velvet、Trinity、Oases和Bridger。评估从头组装质量指标包括中位重叠群长度、重叠群数量和N50。
  2. 基于参考基因组组装:这种方法依赖于序列比对算法,比对的read覆盖了参考基因组,产生非连续部分,这些非连续的read是对成熟mRNA测序的结果(见图)。通常,比对算法有两个步骤:1)用read的短序列进行比对;2)用动态编程找到最佳比对,有时结合已知的注释。基于基因组比对的软件工具包括Bowtie、TopHat(基于Bowtie比对结果对齐剪切点)、Subread、STAR、Sailfish、Kallisto和GMAP。 评估基于参考基因组组装质量指标主要是以下两点:1)从头组装指标(例如,N50);2)与已知转录本、剪切点、基因组和蛋白序列等进行比较。

mRNA-align

  关于组装质量,目前的情况是:1)装备质量根据使用的标准而变化;2)在一个物种中得分良好的软件在其他物种中不一定表现良好;3)组合使用不同软件可能是最可靠的。

基因表达

  量化表达通常用于研究响应外部刺激的细胞变化、健康和患病状态之间的差异以及其它研究问题。基因表达通常用来反映蛋白质丰度,但不适用于诸如RNA干扰和无义介导的转录衰变事件。

  通过统计转录组装配步骤中映射到每个基因座的read数量来量化表达,使用重叠群或注释的转录本来定量外显子或基因的表达,这种统计RNA-Seq read数的方法已经通过较老的技术(表达微列阵和qPCR)进行了有效地验证。量化计数工具有HTSeq、FeatureCounts、Rcount、maxcounts、FIXSEQ和Cuffquant,这些工具都是将统计read数转换为适用于假设检验、回归和其它分析的指标。此状换参数是:

文库大小:虽然在进行多个RNA-Seq实验时预先确定了测序深度,但实验之间仍会有很大差异。因此,通常将read统计数转换为每百万比对read的read数、片段数或个数(FPM、RPM或CPM)来调整在单个实验中生成的read总数(文库大小)。

基因长度:如果转录本表达相同,则较长的基因将比较短的基因具有更多的片段、read或个数。通过将FPM除以基因长度来调整,得到每千个碱基的转录每百万比对read的片段(FPKM)。当查看样本间的基因组时,通过将每个FPKM除以样本中FPKM的总和,转换为百万分之一的转录本(TPM)。

样本总RNA:因为每个样本中提取相同量的RNA,样本总RNA多的将具有更少种类基因RNA,导致下游分析中的假阳性。

每个基因的表达方差:建模以考虑抽样误差(对具有低read数的基因很重要),可以将方差估计为正常、泊松或负二项分布。

转录本的差异表达和绝对定量

  RNA-Seq通常用于比较不同条件之间的基因表达,例如药物治疗与未治疗,并找出每种情况下哪些基因上调或下调。理论上,RNA-Seq可以统计每种情况下细胞中的所有转录本的个数,通过测序read统计工具统计每个基因的read数,并在样本间进行比较来鉴定不同表达的基因。有许多软件包可用于此类分析,常用的工具是来自Bioconductor软件包DESeq和edgeR,这两个个工具都使用基于负二项分布的模型。

  一般的RNA-Seq分析不能进行绝对定量,因为它仅提供相对于所有转录本的RNA水平,如果细胞中RNA总量随不同条件发生变化,则相对标准化将错误地表示个体转录本的变化。通过添加外标(已知浓度的RNA样品)进行RNA-Seq,可以对mRNA进行绝对定量。

基因共表达网络分析

  基因共表达网络分析是根据基因表达量的动态变化,计算基因间的共表达关系,来建立基因转录调控模型,得到基因间的表达调控关系及调控方向,从而寻找一个或多个物种在不同发育阶段,或者不同组织在不同条件或处理下的全部基因表达调控网络模型以及关键基因。

发现单核苷酸突变(SNP)

  RNA-Seq仅限于发现外显子区域的序列变异,不能检测到内含子区域序列变异。虽然外显子与内含子变异之间存在某种相关性,但只有全基因组测序才能捕获所有来源的SNP。

  绝对确定个体突变的方法是将转录本序列与种系DNA进行比对。这样能够区分纯合基因与其中一个等位基因的倾斜表达,并且还可以提供关于转录组实验中未表达的基因的信息。一个基于R语言名为CummeRbund包可用于生成视觉化的表达图表。

RNA编辑(转录后改变)

  比较个体的基因组和转录组序列也可以帮助检测转录后编辑,如果基因是纯合的,但是基因具有不同的转录本,则确定是转录后修饰。

融合基因检测

  由于基因组中的不同结构修饰,融合基因因其与癌症的关系而受到关注。RNA-Seq因无差别分析整个转录组的能力使其成为癌症研究中发现这些常见事件的有力工具。

  该方法遵循将短转录组read比对到参考基因组的过程,大多数短read将比对到一个完整的外显子内,仍有一大部分比对到已知的外显子——外显子连接,然后进一步分析剩余未必对的read是否匹配到外显子——来自不同基因的外显子连接,这可能是融合事件的有力证据,然而,由于read的长度,事实上是比较粗糙的方法。另一种方法是使用双端read,当潜在大量双端read将每个末端比对到不同的外显子时,可以更好地验证这些事件(见图)。

gene-fusion

应用

  • 转录本结构研究(基因边界鉴定、可变剪切研究等)

  • 转录本变异研究(如基因融合、编码区SNP研究)

  • 非编码区域功能研究(Non-coding RNA、microRNA前体研究等)

  • 基因表达水平研究以及全新转录本发现

参考资料

RNA-Seq

转载于:https://www.cnblogs.com/yahengwang/p/9523115.html

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要用三代测序数据组装出染色体级别的基因组,可以按照以下步骤进行: 1. 数据预处理:对三代测序数据进行质量控制和过滤,去除低质量和含有适配器的reads。 2. 组装:使用基因组组装软件对经过预处理的数据进行组装。由于三代测序数据具有较长的read长度和较高的错误率,因此需要使用适合处理这种数据的组装算法,如Flye、Canu、wtdbg2等。 3. 内部一致性校正:对组装结果进行内部一致性校正,去除矛盾的序列,提高组装准确性。 4. 粘连区域处理:在染色体级别组装过程中,常常会出现粘连区域,即存在多个不同的序列可以组装在一起。可以使用长读比对、Hi-C数据等方法进行粘连区域的处理,得到最终的染色体级别组装结果。 5. 评估和改进:对组装结果进行评估和改进,比较组装结果和已知参考基因组的差异,并使用其他数据如RNA-seq数据进行验证和改进。 以上是组装染色体级别基因组的一般步骤,具体实施中还需要结合具体的数据情况和组装软件的特点进行调整和优化。 ### 回答2: 染色体级别的基因组组装需要经过以下几个步骤: 1. 数据质控:首先对三代测序数据进行质控,包括去除低质量碱基、修剪末端序列、去除接头序列等处理,确保数据的准确性和完整性。 2. 参考基因组比对:使用相关物种的参考基因组作为参考,将测序reads与参考基因组进行比对。此步骤可使用一些开源的比对工具,如Bowtie、BWA等。 3. 去重和拼接:根据比对结果,对重复的读取进行去重,然后将比对上的reads进行拼接,生成更长的序列。常用的拼接工具有SPAdes、SOAPdenovo等。 4. 错误矫正:对拼接得到的长序列进行错误矫正,去除可能存在的测序错误。可使用Quiver、LoRDEC等工具进行错误矫正。 5. 碱基错误矫正:使用相关物种的其他基因组信息,如原核生物的拓扑结构、转录本序列等,进行碱基错误矫正,提高结果的准确性。可使用Pilon、Racon等工具进行碱基错误矫正。 6. 持续迭代:以上步骤可能需要多次迭代进行,直至获得较完整且准确的染色体级别基因组。 7. 结果评估:通过与已知基因组的比对、基因预测和注释等方式对组装结果进行评估,验证基因组的准确性和完整性。 总之,染色体级别基因组组装利用三代测序数据,通过质控、比对、拼接、错误矫正等多个步骤,最终得到较完整、准确的基因组序列。然而,组装结果仍需综合其他实验验证,才能确保基因组的完整性和准确性。 ### 回答3: 要组装一个染色体级别的基因组,首先需要收集足够的三代测序数据。三代测序技术包括Illumina,PacBio和Nanopore等,它们提供了高质量、长读长的测序数据。 第一步是建立一个参考基因组序列。可以使用辅助测序技术,如BioNano或Hi-C,来获得染色体的全长信息。这些信息将帮助将测序数据映射到参考基因组上。 接下来,将三代测序数据与参考序列进行比对。根据每个数据集之间的重叠区域,可以通过重叠改正和序列拼接方法将读取连接起来。通过比对多个数据集,可以提高准确性并填充序列间的空隙。 然后,进行读取错误矫正。三代测序技术由于其相对较高的错误率,可能需要采取矫正措施。可以使用PacBio和Nanopore提供的高质量排序读取来矫正Illumina数据集中的错误。 在得到组装的序列后,需要通过重叠区域检测和破碎区域映射来验证和填充序列。通过比对之前得到的长读取和映射的链接信息,可以检测到重叠和破碎区域,并进行修复和连接。 最后,继续进行序列校准和错误修复。可以使用基于概率的方法,如polish read or consensus correction,来矫正残留的序列错误。 通过这些步骤,我们可以逐渐组装出一个染色体级别的基因组。但需要明确的是,基因组组装是一个复杂的过程,可能涉及到很多细节和步骤。因此,在实际实施中,可能需要借助各种基因组组装软件和技术来完成任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值