计算机非编码类,真核生物非编码RNA基因:计算机识别及进化

摘要:

在过去的15年里,人类基因组计划的开展,在生命科学领域引发了一场基因组的革命。人类基因组计划揭示出人类基因组包含不到3万个蛋白质基因,仅占整个基因组序列的2%。剩余的98%以上的基因组序列又有何功能?近年来,一系列新的研究发现在基因组的非蛋白质编码区存在着大量的非编码RNA基因(non-protein coding RNA gene,ncRNA gene),他们在生物体生物合成及代谢调控中的作用的也逐步阐明。非编码RNA占人类基因组转录产物的95%以上,参与整个遗传信息的维持及其表达的调控,形成细胞中高度复杂的RNA调控网络。一个隐蔽的“RNA世界”正有待人们去发现。开展RNA组学研究,继续发现和鉴定新的ncRNA基因,研究他们的功能进化,对深入揭示ncRNA的在基因组进化中的作用有着十分重要的意义。

与蛋白质编码基因不同,ncRNA不含可翻译的开放读码框架(Open Reading Frame,ORF),因此,新的ncRNA不能通过基于ORF特性的计算机基因组分析技术来寻找。由于缺乏行之有效的方法来快速识别新ncRNA,除了极少数高度保守的ncRNA分子,即核糖体RNA(ribosome RNA,rRNA),转运RNA(transfer,tRNA),核小分子RNA(small nuclear RNA,snRNA),基因组中的大部分ncRNA基因扔有待注释。建立新的计算机RNA组学方法,发现和鉴别新的非编码RNA已成为基因组序列识别的难题和RNA组学研究的首要任务。本论文的首要目的就是要构建基于基因组水平的非编码RNA基因的高通量识别分析平台,对真核生物基因组数据进行分析,发现和鉴别一批新的小分子ncRNA基因,并对其功能、基因组织结构和分子进化进行进一步的深入分析研究。

核仁小分子RNA(small nucleolar RNA,snoRNA)是目前已知细胞核内最大的ncRNA家族之一,在核糖体的生物合成中起着重要的角色。根据结构和功能特征,snoRNA主要可以分为box C/D和box H/ACA两大类,它们分别指导rRNA上特定位点的甲基化和假脲嘧啶化修饰。近几年的研究表明,snoRNA的结构、功能以及基因组织均呈现高度多样性。从1990年以来,大量的新的snoRNA在真核生物的核仁中被发现和鉴定,但是其中大部分都是来自脊椎动物和酵母,只有少数植物的snoRNA被鉴定。在植物中,虽然早期的研究已经揭示其rRNA高度甲基化,但是直到最近,对植物的box C/D snoRNA基因的全面系统分析才首次在拟南芥(Arabidopsis thaliana)基因组中完成。对植物snoRNA基因的研究和认识继续在扩展,特别是近年来,由于水稻基因组计划取得的进展,大大加大了植物snoRNA基因研究的速度和规模。水稻基因组是拟南芥基因组的4倍,并且其组织结构更加复杂多样。在对数据库中水稻基因组DNA序列的早期分析中,本实验室发现一种新的基因组织形式,亦即是内含子snoRNA基因簇。在水稻以及其它植物中,新的snoRNA基因的发现以及其基因组织形式的更全面的研究,将对阐明植物rRNA的甲基化模式以及新的甲基化位点的产生机制及其生物学意义起着重要的作用。本论文工作,首先构建了基因组水平上的box C/D snoRNA基因的高通量计算机鉴定分析平台(snoRMP,snoRNA Mining Platform),并运用该平台对水稻(Oryza saava)基因组进行全面的系统分析,寻找新的sonRNA基因。该工作基本上诠释了水稻中全部典型box C/D snoRNA基因,并发现内含子基因簇为水稻基因组中snoRNA基因的普遍基因组织形式。本工作共鉴定了118种不同的box C/D snoRNA基因,共包括334个不同的基因序列,指导135个水稻rRNA位点的2'-氧-核糖甲基化修饰。虽然并未能做到毫无遗漏,但是本工作发现的,水稻拥有的box C/DsnoRNA数目是迄今为止真核生物中最多的。有趣的是,虽然很多snoRNA基因在水稻和拟南芥之间保守,但是几乎接近一半的snoRNA基因是水稻特异的,这可能显示了单子叶植物和双子叶植物rRNA甲基化模式的差异。水稻中的box C/DsnoRNA基因大部分以基因簇的形式分布于基因组中,本工作发现了70个簇,共包括270个snoRNA基因。水稻的snoRNA基因簇大部分是在蛋白质基因的内含子中,而在脊椎动物和酵母中一个内含子只包含一个snoRNA基因,拟南芥中也只有少数的几个snoRNA基因簇位于内含子中。

基因的重复(duplication)被普遍认为在基因的功能进化中起着重要的作用。由于基因的重复程度很高,水稻的snoRNA基因有着大量的冗余,并且同一种基因的各个拷贝之间存在着一定的序列差异,植物中的这个大snoRNA基因家族能作为基因重复与功能进化研究的一个很好的模式。水稻中大多数的同源snoRNA基因虽然序列存在一定的差异,但是功能仍然保持一致,指导核糖体上同一位点的甲基化修饰。然而,部分shoRNA基因的功能序列累积了相当的突变,并且能够指导新的位点的甲基化修饰。这充分证明了水稻snoRNA基因能通过基因重复和突变,产生新的甲基化位点。植物rRNA的高度甲基化和植物基因组中频繁的基因重复现象有着重要的联系。该平台还应用于粟酒裂殖酵母(Schizosaccharomyces pombe),果蝇(Drosophila melanogaster)和衣藻(Chlamydomonas reinhardtii)等模式生物基因组的snoRNA基因的研究,发现了大批新的snoRNA基因,并且对其功能、结构以及基因组织形式等进行全面的系统分析和比较研究,大大拓宽了snoRNA基因功能的复杂性及RNA基因组织形式的多样性。

非编码RNA参与整个遗传信息的维持及其表达的调控,形成了细胞中高度复杂的RNA调控网络。RNA-RNA互补配对为ncRNA行使功能的一个重要方式。系统的研究ncRNA分子在进化中的相互作用,将有助于建立一个新的框架,研究ncRNA基因的功能及进化。Box C/D snoRNA能和rRNA形成10-20碱基(base,bp)长度的互补配对。由于大量新的C/D snoRNA基因在各大模式生物中被鉴定,使得系统的比较研究snoRNA和rRNA在进化中的相互作用成为可能。通过系统比较分析酿酒酵母(Saccharomyces cerevisiae)、粟酒裂殖酵母、人(Homo sapiens)、小鼠(Mus musculus)、拟南芥和水稻等六种模式生物的124组415个rRNA以及snoRNA互补序列形成的双螺旋结构,本研究工作进一步发现了9bp长的snoRNA-rRNA相互作用的核心区域(box D上游3-11位点)。在该核心区域,突变受到很强的负选择作用的限制,各相关物种的序列显示出高度的保守性,大于90%的位点维持互补匹配。由此可见,该核心区域的配对,对snoRNA指导rRNA上特定位点的甲基化修饰至关重要。在该区域,虽然大部分的单位点突变不能在进化中维持,但是snoRNA和rRNA分子能通过互补突变的方式共进化。互补突变了占了该区域突变的三分之一以上。另外我们还揭示了,由于snoRNA以及rRNA分子的基因组织结构的不同,他们通过不同的突变途径进化。真核生物的rRNA包括100-200个修饰位点,每个位点有至少有9bp序列的进化受到与snoRNA相互作用的限制,至少20%的rRNA序列的进化受到snoRNA与rRNA相互作用影响随着越来越多基因组序列的测定,通过基因组间以及基因组内的比较研究揭示全基因组的复制(whole genome duplication,WGD)在基因组进化中起到重要的作用。酵母,拟南芥以及脊椎动物基因组的研究显示,在WGD后大部分基因的其中一个复制拷贝会在短时间内丢失,重新回到二倍体基因组。原生动物草履虫(Paramecium tetraurelia)的基因组序列不久前被测定。通过蛋白质基因的研究发现该基因组在其进化历史中至少发生了3次WGD。与之前研究的基因组不同,一半以上的草履虫基因在WGD后相当长的一段时间扔保持着多拷贝,尤其是高表达的基因,超过10%以上基因有4个以上的拷贝。WGD后非编码DNA(non-coding DNA,ncDNA)将如何进化?为了回答该问题,本研究首先通过综合运用多种ncRNA基因计算机识别算法,在草履虫基因组中诠释5S,snRNA,snoRNA,SRP RNA(signal recognition particle,SRP),Telomerase RNA(端粒酶RNA),tRNA等高表达的ncRNA基因。对各种ncRNA基因在WGD后的进化模式的研究表明,与高表达的蛋白质基因不同,只有不到1%的ncRNA基因有超过4个以上的拷贝。此外,本研究进一步通过基因组内序列的比较,界定ncDNA中存在的进化保守序列。通过与蛋白质基因编码序列(Coding Sequence,CDS)的比较,研究蛋白质基因的非转录区域(Untranslated Region,UTR)以及内含子区域(intron)在WGD后的进化。虽然不像哺乳动物中,超过一半的进化保守序列位于非编码区域,草履虫的基因组大部分为蛋白质编码基因,但是也发现超过30%的尚未注释的基因间隔区序列在进化中保守。其中137能够形成保守的稳定的二级结构,为潜在的新ncRNA基因。

更多

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值