能够对RNA序列数据进行分析的新方法可以让我们从头开始构建转录组。
对
RNA进行测序一直以来都被认为是一种发现基因的有效方法,而且这种方法还被认为是对编码基因以及非编码基因进行注释的金标准。与以前的方法相比,大规模
平行RNA测序方法(massively parallel sequencing of
RNA)极大增强了RNA测序技术的处理能力,使我们得以能够对转录组进行测序。在本文中即将介绍到的这两种RNA测序方法就能以前所未有的精度对转录组
进行分析。Trapnell小组使用的方法是一种名为Cufflinks的软件。这种软件能够随时发现小鼠生肌细胞(myoblast
cell)内新出现的转录子,还能在细胞分化时对转录子表达水平进行监测,从而分析基因表达情况和剪接情况。Guttman小组也使用了与
Trapnell小组相类似的软件方法,不过他们使用的是另一种名为Scripture的软件。Scripture软件可以对源自三个小鼠细胞系的转录组
进行再注释(reannotate),从而对数百个最近新发现的lincRNA(large intergenic noncoding
RNA)进行完整的基因模式注释。
虽然RNA测序技术已经出现了将近20年,但直到最近才开始构建克隆文库。对人类、小鼠以及其它重要模
式生物进行全长基因克隆构建的科研项目需要几年的时间才能够完成。但是有了最新的测序技术,我们将不再需要构建克隆文库,可以直接对cDNA片段进行测
序。我们现在可以只需要花费几天,仅用以往同类项目科研经费的很少一部分就能够得到一个比较满意的完整的细胞转录组。但是这种新技术也存在一点问题。不用
构建克隆,我们就无法知道哪一个“结果(mRNA或蛋白)”来自哪一个转录子。最近已经有人开始通过对已知的或者预测出来的转录子的短RNA序列进行测序
的方式来对基因表达和可变剪接进行分析研究。虽然这些研究可以得到很多信息,但是这种方法只能用于分析已知基因和对已知的可变连接区域进行分析。为了充分
利用RNA序列数据进行生物学研究,我们还应该能够重建转录子并且还要能够在不借助参考注释基因组信息的情况下对这些转录子的相对丰度进行精确的测量。
过
去我们在利用短RNA序列重建转录子时主要采用了两条策略(图1)。第一条策略是利用ABySS软件从头构建的方法,这样就可以与全长cDNA序列进行比
对,从而解决序列注释的问题。这种办法还可以用于发现参考基因组中未收录或者收录不