长非编码RNA的进展:识别、结构预测与功能注释

文献名:Advances in long noncoding RNAs: identification, structure prediction and function annotation

作者: Xingli Guo, Lin Gao, Yu Wang, David K. Y. Chiu, Tong Wang, 和 Yue Deng

翻译:

摘要
长非编码RNA(lncRNA)通常长度超过200个核苷酸,蛋白质编码潜力较低,通常被认为是一类异质的RNA。最近,越来越多的研究表明lncRNA可以参与多种重要的生物过程和复杂的人类疾病。许多lncRNA的一级序列直接与特定功能相关,强有力的证据表明其二级结构与其已知功能更为密切相关。作为功能性分子,lncRNA对许多研究人员来说越来越重要。在本文中,我们综述了lncRNA研究中三个层次(一级序列、二级结构和功能注释)的最新进展,以及lncRNA数据分析的计算方法。

关键词: lncRNA;识别;蛋白质编码潜力;二级结构预测;功能注释

引言
虽然已报道的人类基因组中<2%为蛋白质编码区域(约20,000个基因)【1, 2】, 但基因组的大部分会产生非编码RNA(ncRNA),其几乎没有或完全没有蛋白质编码能力【3, 4】。尽管许多短ncRNA类如microRNA(miRNA)和Piwi相互作用RNA被广泛研究【5, 6】,但长度超过200个核苷酸的异质ncRNA(称为长非编码RNA或lncRNA)吸引了研究人员的广泛兴趣【7】。随着高通量测序技术的快速发展,已经在哺乳动物中鉴定出数千种lncRNA【8】。

一种假设是,目前注释的大多数lncRNA没有功能【9】,对此有两个支持理由。一是像所有生化过程一样,转录机制并不完美,可能会产生没有显著生物学目的的随机RNA【10】, 尽管许多lncRNA会像mRNA一样加帽、剪接和加poly(A)尾,这些特征都不是功能的可靠指标。另一个是尽管转录行为很重要,但转录的产物并不一定重要【9】。这些包括转录干扰过程中产生的RNA,这涉及转录非编码位点,它们与调控区域重叠,已知在原核生物和真核生物中调控基因表达【11】。然而,越来越多的lncRNA被报道在生物过程中发挥重要作用。例如,需要哺乳动物剂量补偿的Xist RNA【12】显然是功能性的。在lncRNA是关键因子的生物事件名录中,细胞周期调节、凋亡、细胞身份建立【13-15】等事件正在迅速增加。更重要的是,lncRNA的失调与多种人类疾病有关,包括癌症以及其他免疫和神经系统疾病【16-18】。由于lncRNA是基因表达的关键调节因子,其失调可能导致异常的细胞功能、生长缺陷和许多人类疾病。分析各种癌细胞中的lncRNA表达谱,并将其与相应正常细胞进行比较,发现许多lncRNA在各种癌症中表现出失调【18】。此外,越来越多的证据将lncRNA的突变和失调与多种人类疾病联系在一起【19, 20】。lncRNA的一级结构、二级结构、表达水平及其相关的RNA结合蛋白的改变是从神经退行性疾病到癌症等疾病的基础【21】。至于癌症转移过程,它由一系列连续和复杂的步骤组成,lncRNA在原发肿瘤和转移中的基因表达模式不同,可用于癌症诊断和预后,并作为潜在的治疗靶点【22】。

尽管lncRNA吸引了越来越多的研究兴趣,但它们的大多数特定功能机制仍然未知。本文旨在汇集lncRNA研究中的分散发现,重点是与序列、结构和功能相关的三个层次。我们相信这篇综述将帮助研究人员理解关键问题,并促进对lncRNA更深入的理解。

lncRNA序列的基本特征及其识别

遗憾的是,基于我们目前有限的知识,没有明确的lncRNA定义。通常,lncRNA被松散定义为长度超过200个核苷酸(nt)的RNA转录本,不能被翻译成蛋白质【23】。然而,lncRNA的一些基本特征可以与可以翻译成蛋白质的mRNA进行比较。首先,考虑lncRNA的大小和外显子。在一组注释的人类长基因间非编码RNA(长基因间ncRNA,是lncRNA的一个子集)【24】中,这些长基因间非编码RNA的平均大小被发现小于mRNA。它们的外显子数量平均较少,这可能部分归因于其较低的丰度和不完整的组装。据报道,lncRNA具有不寻常的外显子结构,但表现出标准的经典剪接位点信号和选择性剪接【25】。在Cabili等人的数据集中【24】,大多数lncRNA是剪接的(98%),并显示出只有两个外显子的明显趋势(42%的lncRNA转录本相比于6%的mRNA)。其次,与mRNA类似,许多lncRNA的特征是“K4-K36”域,这些域包括启动子上的组蛋白3赖氨酸4三甲基化,随后是沿转录区的组蛋白3赖氨酸36三甲基化【8, 24-26】。第三,有大量证据表明lncRNA像mRNA一样由RNA聚合酶II转录,通常包含经典的加polyadenylation信号,尽管发现一些lncRNA可能由聚合酶III转录【27】。第四,通常不像蛋白质编码基因,蛋白质编码基因通常在物种之间是保守的,大多数lncRNA的保守性较差,因此被认为是转录噪声【28】。即使lncRNA在大多数情况下不如mRNA保守,这本身并不一定意味着缺乏功能。

通常lncRNA启动子比其外显子更保守,甚至与mRNA启动子一样保守【24-26】。先前的证据报告称在不同的lncRNA集合中存在净化选择【26, 29, 30】。一些高度保守且在大脑中表达的lncRNA的直系同源物已被鉴定出在远至负鼠和鸡的物种中【24】。尽管lncRNA的序列保守性较低【31, 32】,但越来越多的证据表明lncRNA发挥的关键作用,这将在本综述中稍后阐述。

lncRNA的转录最早通过传统的克隆方法被观察到,而没有检测到翻译产物【33】,例如H19【34】。lncRNA实验鉴定的重大进展伴随着微阵列和tiling阵列的发展,最近则是通过下一代测序技术【4, 35, 36】。FANTOM项目【4, 35】通过cDNA克隆和Sanger测序鉴定出在不同小鼠组织中的>34,000种lncRNA。这些lncRNA中的相当一部分得到了可靠的支持【37, 38】。例如,GENCODE V7【25】和当前RefSeq发行版【39】中鉴定的lncRNA是基于改进的EST和cDNA数据。通过筛选染色质特征如“K4-K36”域的方法鉴定出小鼠和人类中的数千种长基因间非编码RNA【8, 26】。

近年来,由于下一代测序技术的广泛应用,数千种lncRNA被鉴定出来【24, 40, 41】。值得一提的是,基于下一代测序数据的方法发现了在各种癌细胞和细胞类型样本中表达的数十种lncRNA。此外,一种经典的分类方法已被应用于对lncRNA进行分类【13, 17, 25】,通过该方法,lncRNA根据与蛋白质编码基因的接近性分为五种生物类型:正义链、反义链、双向、内含子和基因间。关于某些转录本可以同时具有编码和非编码功能的事实【42】,Ulitsky等人【9】讨论了非编码转录本分类的复杂性并给出示例。

确定转录本的蛋白质编码能力对于lncRNA的鉴定至关重要。这也是具有挑战性的,因为lncRNA可能仅由于偶然原因而包含假定的开放阅读框架(ORF)【42】。因此,如缺乏进化保守性、与已知蛋白质结构域的同源性以及模板产生显著蛋白质产物的能力等原则【34, 43】已被总结以区分数千个转录本的编码潜力。表1中描述了几种最新方法及其使用的指标。在[44, 45]中使用的得分保守ORF的方法是使用“密码子替代频率”来开发算法,以跨多个物种对保守ORF进行评分,并提供确定编码潜力的总体策略。但基于保守性的方法可能无法检测年轻的蛋白质,因为它们不包含保守的ORF【44, 45】。一种名为编码潜力计算器(CPC)【46】的工具通过在大型蛋白质结构域数据库Pfam【50】中搜索假定的ORF和同源性。另一种方法编码潜力评估工具【47】,与CPC相似,利用转录本中嵌入的ORF信息开发分类器。与以往的工作不同,Sun等人【48】提出了一种通过利用序列中包含的内在成分而不是预测ORF的方法来对蛋白质编码和lncRNA转录本进行分类。此外,CONC【49】在FANTOM项目中被开发和应用,另一个基因识别程序GeneID【51】用于测量GENCODE v7中lncRNA的蛋白质编码潜力。

lncRNA二级结构探测

二级结构在大多数ncRNA类中(包括一些lncRNA)起着重要作用【53-56】。尽管其二级结构介导的作用广泛存在,但许多lncRNA的二级结构与其功能之间的关系仍然很大程度上未知。在此,我们描述一些与lncRNA二级结构相关的最新进展。

一般来说,RNA的二级结构在分子生物学中扮演了许多关键角色,比一级序列更重要。lncRNA二级结构的特征最近吸引了研究人员和临床医生的注意。例如,在lncRNA MALAT1的功能研究中,发现MALAT1在其30末端具有一个类似tRNA的结构【57, 58】。另一个例子是类固醇受体RNA激活因子(SRA),其长度为0.87 kb,由四个结构域组成,具有各种二级结构元素,从小的自主螺旋茎到通过长距离碱基配对形成的较大结构【55】。癌症相关的lncRNA SPRY4-IT1(AK024556)来源于SPRY4基因的一个内含子,预测其二级结构中包含几个长发夹【59】。lncRNA HOTAIR也与癌症有关【60】,作为蛋白质复合物的结构支架,具有复杂的RNA结构基序【61】。这些结构基序可能作为蛋白质复合物如PRC2和LSD1的不同结合域,在不同细胞环境中作为信号、导向或支架发挥作用【62】。lncRNA Gas5既可以作为分子诱饵也可以作为信号来负调节效应子。已检查发现lncRNA SRA具有复杂的结构组织,由四个结构域组成,具有多种二级结构元素【53】。此外,lncRNA结构可能在lncRNA与其他分子如染色质修饰复合物【8】、染色质【63】和miRNA【64】之间的相互作用中发挥关键作用。所有这些表明lncRNA二级结构与其生物功能之间的重要相互作用。

RNA二级结构及三级结构可以通过实验和计算方法确定。由于一些大型RNA如核糖体RNA和RNase P已经成功结晶化,lncRNA的结构研究在不久的将来可能成为可能。因为RNA是从细胞中提取并在缓冲液中复性,体外研究中获得的结构可能与其体内形式显著不同。然而,体外确定RNA结构也具有重要的优势,可以在比体内系统更简单的系统中研究靶标的同质群体。与计算方法相比,实验方法可以提供更可靠的结果,但实验成本较高。另一方面,计算方法可以低成本地对lncRNA二级结构进行大规模研究,尽管假阳性率较高。例如,在Volders等人【65】中,通过软件RNAfold预测了21,488个人类lncRNA的二级结构,并通过图形交换格式(.gif)在网页浏览器中显示。在Rfam【66】中,为lncRNA转录本中高保守区域提供了结构信息。预测结果可能为lncRNA研究提供线索,为未来实验设计提供指导。然而,对于任何后生动物来说,缺乏对lncRNA二级结构的全面全基因组研究。

最近,基于高通量测序的实验技术被开发出来以探测RNA结构,如SHAPE【67】、RNA结构的平行分析(PARS)【68, 69】和FragSeq【70】,这些技术使得可以对RNA二级结构中的成对和未成对区域进行全基因组测量,可能为lncRNA二级结构分析带来新的曙光。具体来说,Li等人【71】使用一种基于高通量测序的结构映射方法来识别黑腹果蝇和秀丽隐杆线虫转录组中的成对(双链RNA)和未成对(单链RNA)成分,为动物的RNA折叠提供了全球评估。Kertesz等人【68】描述了一种基于深度测序RNA片段的新策略,应用于勃艮第酵母(Saccharomyces cerevisiae)mRNA的二级结构剖析,并获得了超过3000种不同转录本的结构剖析。这些初步研究表明基于高通量测序的方法是一种有效且高效的方法,可在全球范围内研究RNA(包括lncRNA)二级结构。相关工作已在Mortimer等人【72】中进行综述。另一项近期研究【73】也提供了人类编码和非编码RNA的综合结构图。然而,像大多数现有的实验方法一样,高通量测序的缺点在于它只能用于体外评估RNA结构。体外获得的结构可能与其体内形式显著不同。确实,探测到的一部分RNA二级结构在许多区域与生物功能状态不相似【9】。因此,基于高通量测序的方法可能不如我们所期望的那样准确,特别是对于具有长距离三级相互作用的更大结构RNA。然而,应该承认,越来越便宜的高通量测序技术的出现使得可以在全基因组范围内对lncRNA二级结构进行更高精度的研究,与直接计算预测方法相比。此外,全基因组高通量测序结构数据可用于约束折叠算法并提高其准确性,如之前对特定RNA所示【74, 75】。因此,这一庞大的结构测序数据目录为我们提供了一个机会,可以将这些数据作为一个整体进行利用,尤其是在考虑lncRNA二级结构时。

lncRNA的功能注释

从之前的讨论中可以注意到,越来越多的证据表明lncRNA在发挥关键作用。然而,与mRNA相比,lncRNA的表达通常具有更强的组织特异性【24, 25】。lncRNA也表现出较低的表达水平【24, 25, 38, 76】以及在细胞系和组织中的较高表达变异性【25】。也就是说,lncRNA的表达可能由微妙的分子机制调控,而lncRNA本身可能作为分子中的调节因子。在本节中,我们将讨论几种lncRNA的分子机制以及当前对lncRNA功能注释的研究方法。

事实上,大多数lncRNA的分子机制仍然很大程度上未知。然而,最近一些著名的例子提供了一些线索。首先,发现lncRNA通过多种机制参与基因调控,例如DNA的表观遗传修饰、选择性剪接、转录后基因调控以及mRNA的稳定性和翻译【77-79】。此外,发现lncRNA可以调节蛋白质编码基因的表达,正向或负向,顺式或反式【80】。例如,lncRNA Kcnq1ot1可以在印记基因簇中顺式调控表观遗传基因沉默【81】。已知Kcnq1ot1在胚胎组织中特异性地与邻近基因相互作用,引起转录基因沉默。另一个例子是lncRNA AK143260,称为Braveheart (Bvht),它以反式方式作用,特异性促进核心基因调控网络的激活,以指导心血管谱系的承诺【82】。在最近的两项研究中【24, 25】,观察到lncRNA和mRNA之间的顺式和反式共表达。其次,lncRNA参与细胞过程,包括增殖、迁移、凋亡和发育【83, 84】,也在维持多能性方面发挥作用【84, 85】。基于这些分子特征,lncRNA可以分为不同的组【33】,如信号、导向、支架和诱饵。例如,KCNQ1ot1、Air和Xist被描述为其各自基因组位置的活性沉默信号,其他的则作为导向、支架和诱饵【86】。

此外,lncRNA与其他分子(如miRNA、蛋白质复合物和其他调控元素)之间存在复杂的相互作用网络。已提出并归因于lncRNA的模块化机制【87】,提供了一种新兴模型,通过该模型,lncRNA可以通过组装多样的蛋白质组合来实现调节特异性,并可能与RNA和DNA相互作用。例如,一种肌肉特异性lncRNA,linc-MD1,可以与两个特异性miRNA(miR-133和miR-135)相互作用,通过作为竞争性内源性RNA在小鼠和人类肌母细胞中促进肌肉分化【88】。然后,在其他计算或实验研究中利用了lncRNA与其他分子之间的相互作用。例如,在Khalil等人【8】的研究中,研究了长基因间非编码RNA(lincRNA)与多梳抑制复合物(PRC)2的关联,发现约20%的3300种在不同细胞类型中表达的lincRNA被PRC2结合【8】。通过计算方法预测或实验手段验证的lncRNA与其他分子之间的关联也在累积【63, 89】。

随着lncRNA的积累,功能性注释这些lncRNA的需求至关重要。然而,这仍然是一项具有挑战性的任务。首先,lncRNA一级序列中的未记录的结构特征和保守性较弱使得基于比较的推断困难。其次,缺乏关于lncRNA与其他分子之间关系的可靠网络模型。第三,重要的是,lncRNA功能的实验验证仍然昂贵、费力和耗时。第四,lncRNA序列之间、时空和组织特异性表达的细微特性使得它们动态且难以捉摸,增加了难度。然而,先锋工作已开展。这些关于lncRNA功能注释的工作可以分为两种方法:实验方法和计算方法【90】。计算方法的框架如图1所示。至于输入数据,这些方法主要基于lncRNA的表达数据。一个表达数据来源是基于RNA-seq测序。它可以提供各种样本中转录分子的综合定量测量。这包括lncRNA和其他RNA分子的表达信息。另一个来源是微阵列数据,这些数据可以根据进一步的分析重新注释,因为一些探针被映射到lncRNA上。第三个来源是lncRNA数组数据,探针专门为lncRNA设计。获得输入数据后,在第二步中构建lncRNA和mRNA(或其他分子)的混合表达谱。在第三步中,可以进行差异表达分析和共表达分析。前者通常被视为病例对照,例如在正常和疾病状态之间【91】。然后将具有差异表达谱的基因聚类成不同的基因集,而具有相似表达谱的基因则聚类成一个基因集。基于共表达分析,也可以构建lncRNA与其他分子之间的共表达网络。在共表达网络中,检测不同的网络模块,并将一个模块中的基因视为一个基因集。可以基于共表达网络设计和利用模型和算法。在第四步中,采用策略对lncRNA进行功能注释。一种策略基于基因集。对于每个基因集,进行功能富集分析,并将富集的功能术语分配给该集合中的未注释lncRNA。该策略的一个例子可以在Guttman等人【26, 84】中找到。另一种策略基于网络模型并使用特定算法。开发算法来推断网络模型中lncRNA的候选功能。例如,在【90, 92, 93】中基于网络策略预测lncRNA功能。我们小组还开发了一种全局功能预测器lnc-GFP【90】,可以有效地对lncRNA进行大规模功能预测。在这种方法中,编码-非编码共表达数据与蛋白质相互作用数据相结合,构建了双色网络,在该网络上设计了一种基于信息流的全局方法,以尽可能推断更多lncRNA的可能功能。此外,lnc-GFP已集成到名为ncFANs【94】的网络服务器中,用于在线功能性注释lncRNA。

lncRNA的数据库

转录组阵列和深度测序的进展导致lncRNA大型数据集的快速积累。lncRNA转录本及相关信息最近已被收集到专门用于lncRNA研究的数据库中。在本节中,我们总结了关于lncRNA的通用和专业数据库的内容。最近的一项研究【33】对这些资源和计算工具,特别是lncRNA数据库,进行了全面的描述和比较评估。在这里,我们将lncRNA数据库分为两大类:注释数据库和相互作用数据库,此外还有其他特定数据库。详细信息见表2。

关于注释数据库,提供了lncRNA的序列、表达、可用的二级结构、相关功能和其他内部信息。除了综合数据库如GenBank【111】、FANTOM【112】、HinvDB【113】、GeneCards【114】和ENCODE项目【1】包含注释的lncRNA并定期发布更新版本外,基于一般知识的数据库如NONCODE【3】、lncRNome【96】和LNCipedia【65】能够在覆盖范围和注释深度之间提供良好的平衡。所有这些注释都为理解lncRNA提供了有用的信息。NONCODE是一个致力于非编码RNA(不包括tRNA和rRNA)的集成知识数据库。特别是在其第四版中,lncRNA的数量急剧增加,从73,327增加到210,831(截至2013年11月27日访问)。另一个例子是lncRNAdb【95】,它提供了真核生物lncRNA的全面注释,并能够系统地编译和更新描述个体lncRNA的表达谱、分子特征和相关功能的不断增加的数据。它特别为那些已被证明具有或与真核生物生物功能相关的lncRNA以及具有调节作用的信使RNA列表设计。一些注释数据库是为特定生物体开发的,例如拟南芥的PLncDB【100】。其他注释数据库还记录了一些lncRNA与其他分子之间的相互作用,例如fRNAdb【97】、lncRNAtor【98】和lncRNome【96】。

对于基于相互作用的数据库,包括ChIPBase【101】、NPInter【102】、miRcode【103】、lncRNA2Target【105】等。这些数据库存储了lncRNA与其他分子之间的关系,这些关系是通过实验方法或计算预测获得的。几个数据库提供了人类lncRNA的潜在调节作用及其与miRNA(Starbase v2.0【104】)、sRNA(LncRNAMap【99】)和蛋白质(LncRNAtor)的相互作用的见解。LncRNAtor还提供了各种组织中mRNA与lncRNA的共表达信息。此外,DIANA-LncBase【64】专注于miRNA与lncRNA之间的调节关联,其中包括实验和计算的相互作用。此外,像lncRNADisease【106】和lnCeDB【107】这样的数据库也被纳入此组,它们专注于lncRNA与其他物质之间的功能或逻辑关系。Fritah等人的综述中可以找到lncRNA数据库的详细比较【33】。

除了上述分类的资源外,一些数据库是为特定目的设计的,也列在表2中,例如用于ncRNA表达的NRED【108】,将lncRNA与基因本体(GO)术语关联的Linc2go【109】,以及包括lncRNA区域SNP的lncRNASNP【110】。所有这些资源都可以为lncRNA研究提供帮助,特别是对于lncRNA数据的深入计算分析。

应该注意的是,这些数据库在描绘转录功能关系中起着重要作用。然而,这些资源之间的内容和具体注释存在显著差异【33】,研究人员应仔细考虑。

结论

总之,在lncRNA的全面注释方面已经取得了巨大进展,涉及其一级序列、结构特征及其相关功能。对一些研究透彻的例子的机制基础表明,这些转录本中的许多可能参与重要和多样的生物过程和人类疾病。目前的研究正在探索lncRNA如何参与这些细胞活动。为此,扩展实验技术与计算算法相结合可以提供重要的宝贵见解。

在lncRNA的序列水平方面,大多数研究集中于与mRNA的比较以及对lncRNA的负面描述,如剪接模式、5'帽子、poly A尾巴和与“有限蛋白质编码能力”相关的属性。迄今为止,尽管在定义其一些亚型和嵌入lncRNA序列的基序方面取得了进展,但lncRNA尚无普遍的正面定义。在lncRNA的结构水平方面,lncRNA二级结构中发现的组成成分对于进一步分析具有重要价值,特别是基于高通量测序技术。在lncRNA的功能水平方面,越来越多的证据表明lncRNA在生物过程和疾病中发挥着重要作用,尽管大多数lncRNA的分子机制仍然未知。然而,lncRNA的表达数据及其与其他分子之间的相互作用可能为lncRNA功能机制提供重要的线索。简而言之,lncRNA研究的即将到来的进展,特别是在大规模全基因组范围内,为未来探索lncRNA功能提供了激动人心的机会。

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值