LncBook: 人类长非编码 RNA 审编知识库

【重要】文章来源:LncBook: a curated knowledgebase of human long non-coding RNAs - PubMed

PMID:30329098

【文章内容】

摘要

长链非编码RNA (lncRNAs) 在广泛的重要生物过程中具有显著功能。尽管已知的人类lncRNAs数量大幅增加,但它们的注释仍然很少,这对更好地理解其功能意义和阐明其复杂的分子机制带来了巨大的挑战。在此,我们介绍了LncBook (http://bigd.big.ac.cn/lncbook),一个人类lncRNAs的精心整理的知识库,具有全面收集的人类lncRNAs,并通过多组学数据整合、功能注释和疾病关联进行系统化整理。在当前版本中,LncBook收录了大量的270044个lncRNAs,并包括1867个特色lncRNAs,具有3762个lncRNA功能关联。它还整合了丰富的多组学数据,包括表达、甲基化、基因组变异和lncRNA-miRNA相互作用。此外,LncBook还包含3772个实验验证的lncRNA疾病关联,并进一步识别出总共97998个潜在的疾病相关lncRNAs。总体而言,LncBook致力于人类lncRNAs及其相关数据的整合和整理,因此有望成为全球研究社区的宝贵知识库。

引言

长链非编码RNA (lncRNA) 在许多重要的生物过程中具有多种功能(1-5),并且与各种疾病密切相关(6-9)。近年来,下一代测序技术的快速进步引发了新发现的lncRNAs(特别是在人类中的lncRNAs)数量激增(9-12),这主要是由于其高度组织/细胞特异性(5,13-15)和系谱/物种特异性(14,16,17)特性。因此,构建了多个数据库来存档lncRNA序列和注释(10,12,14,18,19),收集实验验证的lncRNAs(2,3,9,20),整理lncRNA-疾病关联(6,7,9),并注释miRNA-lncRNA相互作用(21-23)。尽管如此,lncRNAs的注释仍然很少(24),这对更好地理解其功能意义和解析其复杂的分子机制带来了巨大挑战。

为了利用集体智慧收集和注释人类lncRNAs,我们于2015年构建了LncRNAWiki(9),这是一个基于wiki的平台,用于社区整理人类lncRNAs。LncRNAWiki通过添加更多实验验证的lncRNAs、整合lncRNAs编码的小肽以及将lncRNAs与疾病关联不断更新(25,26)。然而,基于MediaWiki构建的LncRNAWiki在管理结构化数据和提供定制功能方面存在显著限制;功能注释和序列数据作为非结构化文本存储在MediaWiki中,这使得检索和显示感兴趣的数据项变得困难。理想情况下,应以结构化方式组织大规模注释,并提供具有更友好界面的定制Web功能。更重要的是,通过整合多组学数据,显著丰富和改进lncRNAs的注释以支持功能推断是非常有益的。

在这里,我们开发了一个基于专家整理的资源LncBook(http://bigd.big.ac.cn/lncbook),作为基于社区整理的LncRNAWiki的补充。LncBook具有全面收集的人类lncRNAs,并通过多组学数据整合、功能注释和疾病关联对lncRNAs进行系统整理(表1)。它收录了大量的人类lncRNAs,这些lncRNAs不仅来源于现有数据库,还基于RNA-seq数据分析的新RNA组装。它分别包括来自LncRNAWiki的社区贡献注释和从已发表文献中整理的专家注释。特别是,它整合了各种多组学数据,包括表达、甲基化、变异和相互作用,进行功能注释,并包含lncRNA-疾病关联的集合。同样重要的是,LncBook以结构化方式组织所有相关数据,提高数据浏览/搜索效率,并提供多种有用的在线分析工具。

材料与方法

数据收集

LncBook中的人类lncRNAs不仅来自现有数据库和已发表文献,还基于RNA-seq数据分析的新RNA组装(图1)。具体来说,我们从几个知名的lncRNA数据库中收集了lncRNAs,包括GENCODE v27(14)、NONCODE v5.0(12)、LNCipedia v4.1(10)和MiTranscriptome beta(11)。为了获得高置信度的lncRNAs,采用了一套严格的标准,考虑了冗余、背景噪音、比对错误、不完整的转录本、长度和编码潜力。我们使用Cuffcompare(27)比较不同的数据集以去除冗余、可疑或不完整的转录本:(i)使用Cuffcompare(27)比较代码“=”(表示内含子链的完全匹配)识别冗余转录本,然后根据其注释质量选择代表性lncRNAs;(ii)使用Cuffcompare(27)比较代码“e”、“p”和“s”检测可疑转录本。作为多外显子转录本一部分的单外显子转录本位于其外显子区域,被视为不完整的lncRNAs。此外,长度小于200 nt的转录本被排除。此外,使用三种算法,即LGC(一种公开可用的内部工具,网址为http://bigd.big.ac.cn/biocode/tools/BT000004)、CPAT(28)和PLEK(29),进行编码潜力估计,我们仅保留被所有三种算法识别为lncRNAs的转录本。结果,获得了一个包含247246个lncRNAs的综合、非冗余和高质量的数据集。

为了识别新lncRNAs,我们从HPA(Human Protein Atlas)下载了122个RNA-seq数据集(30)。使用FastaQC(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)和Trimmomatic(31)进行质量控制。Hisat2(32)用于比对reads,而StringTie(32)用于组装和合并转录本。我们使用Cuffcompare(27)比较组装的转录本与现有lncRNAs。结果,共识别出21815个新lncRNAs。最后,我们整合了大量来自现有数据库、基于RNA-seq数据分析的新RNA组装和从LncRNAWiki(9)获得的文献报道的lncRNAs。在去除不能追溯到其基因组位置的lncRNAs后,最终获得了总共270044个非冗余的lncRNA转录本,属于140362个基因位点。所有这些lncRNAs都可以公开访问,网址为ftp://download.big.ac.cn/lncbook。

数据整合与注释

为了描绘lncRNAs的表达水平,使用了两个RNA-seq数据集:HPA(Human Protein Atlas,涵盖32种正常人类组织)(30)和GTEx(Genotype-Tissue Expression,涵盖53种正常人类组织)(33)。我们过滤掉最高表达值低于0.5 TPM/FPKM的lncRNAs。然后,使用τ值(34)和cv值(变异系数)确定HK(管家)lncRNAs(τ值 ≤ 0.5和cv ≤ 0.5)和TS(组织特异性)lncRNAs(τ值 ≥ 0.95)。为了注释lncRNAs的甲基化信息,下载了TCGA(The Cancer Genome Atlas)和ENCODE(The ENCyclopedia of DNA Elements)的亚硫酸盐测序数据,涵盖九种癌症及其正常和癌症样本。我们定义转录起始位点前1500 bp的区域为启动子区域,并计算lncRNAs的启动子和主体区域的甲基化水平。此外,我们将dbSNP(35)中的SNP位点映射到lncRNA位点,并根据1000基因组计划(36)、ClinVar(2017年9月5日版本)(37)和COSMIC(85版本)(38)的数据使用ANNOVAR(39)注释MAF(次要等位基因频率)值、致病信息。使用TargetScan(40)和miRanda(41)预测lncRNA-miRNA相互作用,并从starBase v2.0(21)获取实验验证的相互作用。

为了提供高质量的实验验证lncRNAs注释,我们系统整理了1867个lncRNAs(来源于LncRNAWiki(9)),这些lncRNAs在2501篇文献中报道了功能注释,并使用受控词汇描述了它们的功能机制和影响的生物过程。

lncRNA与疾病的关联来源于LncRNADisease(6)和LncRNAWiki(9),这些关联是从已发表的文献

中提取的,具有实验证据。每个lncRNA-疾病关联都注释了疾病名称、MeSH本体(医学主题词汇2018名称)、功能失调类型、详细描述和出版物。另一方面,我们根据甲基化、基因组变异和lncRNA-miRNA相互作用的证据预测了疾病相关lncRNAs:(i)甲基化:在每种癌症中,相对于正常样本,启动子区域甲基化水平在80%癌症样本中表现出增加(减少)的lncRNA被认为是高甲基化(低甲基化)的。因此,如果在至少八种癌症中一致表现为高甲基化或低甲基化,我们认为该lncRNA与癌症相关;(ii)基因组变异:任何在其基因组位置与COSMIC(出现频率 ≥ 3)或ClinVar中疾病相关SNP重叠的lncRNA我们认为是疾病相关的;(iii)相互作用:任何与至少11个疾病相关miRNAs(根据人类miRNA疾病数据库HMDD(42)与至少五种疾病相关)相互作用的lncRNA我们认为是疾病相关的。

实现

我们使用String Boot作为后端Web框架,MySQL(http://www.mysql.org)作为数据库引擎开发了LncBook。Web界面由JSP(Java Server Pages)和AJAX(异步JavaScript和XML)开发。采用Bootstrap(https://getbootstrap.com)作为前端框架,提供了一系列设计网页的模板,具有一致的界面组件。此外,数据可视化由Highcharts(一个用纯JavaScript编写的图表库)提供支持,提供了一种在任何网站或应用程序中添加交互式图表的简便方法。

数据库内容和特点

与现有的lncRNA数据库相比,LncBook具有全面收集的人类lncRNAs和通过多组学数据整合、功能注释和疾病关联对lncRNAs进行系统化整理的特点(表1)。在当前版本中,LncBook收录了总共270044个lncRNA转录本,包含了1867个基于已发表文献手动整理的实验验证的lncRNAs,并通过整合大规模多组学数据对所有lncRNAs进行注释,包括组织表达谱、癌症相关的甲基化水平、基因组变异和lncRNA-miRNA相互作用。这些1867个特色lncRNAs记录在已发表的文献中,系统整理并注释了功能机制和生物过程,形成了3762个lncRNA功能关联。LncBook还包含3772个实验验证的lncRNA疾病关联,并识别出97998个潜在的疾病相关lncRNAs。此外,LncBook部署了一系列有用的工具,如编码潜力预测、序列搜索等。

人类lncRNAs的全面收集

LncBook包含270044个人类lncRNAs的全面集合(详情见“材料与方法”部分),包括从现有数据库中获得的247246个lncRNAs,LncRNAWiki的1867个和基于RNA-seq数据分析识别出的21815个新lncRNAs,这些lncRNAs共同属于140362个基因位点。LncBook基于转录本管理人类lncRNAs,每个lncRNA转录本实体分配一个以HSALNT为前缀的唯一登录号。同样地,lncRNA基因有一个以HSALNG为前缀的登录号。在LncBook中,每个转录本对应一个特定的网页,包含基本信息(符号、基因组上下文、长度、外显子数量、GC含量、分类、序列、最长的开放阅读框长度、编码潜力)、多组学数据(表达、甲基化、基因组变异、lncRNA-miRNA相互作用)、功能注释和疾病关联(图2)。

多组学数据整合

LncBook整合了各种多组学数据,丰富了lncRNAs在表达、甲基化、基因组变异和与miRNAs相互作用方面的注释(详见“材料与方法”部分)。对于任何给定的lncRNA,LncBook描绘了其在所有收集组织中的表达水平,并以柱状图的形式可视化其表达谱,大大方便了用户探索功能意义。基于这些不同组织的表达谱,LncBook进一步识别了总共819个HK lncRNAs,这些lncRNAs在几乎所有组织中都有一致的表达。同样地,它还获得了49115个TS lncRNAs,这些lncRNAs在一个或少数几个组织中特异性表达。所有HK和TS lncRNAs都可以在http://bigd.big.ac.cn/lncbook/expression公开访问。此外,对于每个lncRNA,LncBook提供了在九种癌症的正常和癌症样本中的启动子和主体区域的甲基化水平,这些水平以表格和点图的形式总结和可视化。根据甲基化分析结果,只有583个lncRNAs在癌症中总是高甲基化,相比之下有27723个lncRNAs总是低甲基化。LncBook还从dbSNP(35)中收集了92725757个SNP,位于197799个lncRNA转录本中。在所有这些SNP中,有7571个来自ClinVar(37)的致病性SNP与2280个lncRNA转录本重叠,79012个来自COSMIC(38)的致病性SNP(出现频率≥3)与26008个lncRNA转录本重叠。此外,LncBook包含145个来自starBase(21)的实验验证的lncRNA-miRNA相互作用,以及TargetScan(40)和miRanda(41)预测的129690817个相互作用。

功能注释

虽然在人体中已经识别出大量lncRNAs,但只有一小部分具有支持出版物的实验证据。根据LncBook的当前集合,在所有270044个lncRNAs中,只有1867个记录了实验验证。基于2632篇文献的手动整理,LncBook为这些1867个特色lncRNAs提供了全面的功能注释;1653个lncRNAs具有功能注释,而1502个lncRNAs与不同的疾病相关,形成了3762个lncRNA功能关联。具体来说,LncBook中的每个lncRNA功能关联都是使用受控词汇描述的,涵盖了它们所涉及的功能机制和生物过程。关于功能机制,LncBook采用了六个受控术语,每个术语都有不同数量的关联:转录调控(397个关联)、ceRNA(182个关联)、剪接调控(19个关联)、翻译控制(17个关联)、蛋白质定位(4个关联)和RNAi(3个关联)。对于生物过程,LncBook采用了两个术语,即病理过程和发育过程;功能注释显示大多数特色lncRNAs参与癌症和其他疾病(3598个关联),相对于发育过程(53个关联)。

lncRNA-疾病关联

考虑到大多数功能研究的lncRNAs与人类疾病密切相关,LncBook整合了3772个lncRNA-疾病关联,这些关联不仅来源于LncRNADisease(6)和LncRNAWiki(9),还基于2337篇出版物整理。LncBook使用疾病名称、功能失调类型、详细描述、MeSH疾病本体和出版物来描述每个关联。根据LncBook中包含的当前信息,所有lncRNAs与462种疾病和28种MeSH疾病术语相关。在所有术语中,“肿瘤”有最多的关联(2888个关联),其次是“消化系统疾病”术语,具有888个关联。LncBook包含的信息还揭示了在所有疾病相关的lncRNAs中,HOTAIR、MALAT1、H19、MEG3、CDKN2B-AS1、PVT1、NEAT1和GAS5被广泛研究,每个lncRNA至少与30种不同的疾病相关。

此外,基于丰富的甲基化、基因组变异和lncRNA-miRNA相互作用,LncBook预测了总共97998个潜在的疾病相关lncRNAs(详见“材料与方法”部分)。简而言之,只有在从甲基化、基因组变异和/或lncRNA-miRNA相互作用中可以获得任何证据时,才将某lncRNA视为潜在的疾病相关。对于正在研究的特定lncRNA,支持证据可能是,例如,其甲基化变化与疾病相关,它与致病变异重叠,或它频繁与疾病相关miRNAs相互作用。结果,LncBook包含97998个疾病相关lncRNAs,其中607个由甲基化、基因组变异和lncRNA-miRNA相互作用这三个证

据源支持,13257个由其中两个证据源支持,84134个由其中一个证据源支持。所有这些疾病相关的lncRNAs可以在http://bigd.big.ac.cn/lncbook/disease找到。

讨论与未来方向

LncBook致力于人类lncRNAs及其相关数据的整合和整理。与LncRNAWiki这个社区整理的资源相呼应,LncBook作为一个专家整理的知识库,整合了全面的人类lncRNAs集合,包含多组学数据、功能注释和疾病关联。LncBook的当前实现中包含了大量的270044个lncRNAs,并包括1867个特色lncRNAs,具有3762个lncRNA功能关联。它还整合了丰富的多组学数据,包括表达、甲基化、基因组变异和lncRNA-miRNA相互作用。此外,LncBook包含3772个实验验证的lncRNA疾病关联,并识别出97998个潜在的疾病相关lncRNAs。然而,需要注意的是,这并不意味着这些疾病相关的lncRNAs在疾病中起因果作用(24)。总之,LncBook是一个人类lncRNAs的整理知识库,有潜力成为全球研究社区的宝贵资源。LncBook的未来发展包括定期整合新发现的lncRNAs,通过文献整理整合高质量注释,并识别正常和疾病样本中的差异表达lncRNAs。我们还计划整合来自其他数据库(如FANTOM CAT(43)和BIGTranscriptome(44))的全长lncRNAs。此外,将开发更多用户友好的工具,以帮助功能注释和多种组学数据的交互式可视化。我们也期待来自全球研究人员的评论和建议,旨在将LncBook建设成为人类lncRNAs的百科全书。

  • 12
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值