LncBook 2.0:整合人类长链非编码RNA与多组学注释

摘要

LncBook是一个全面的人类长链非编码RNA(lncRNAs)资源,已在各种生物学背景下广泛用于lncRNA研究。我们现推出LncBook 2.0(https://ngdc.cncb.ac.cn/lncbook),具有以下显著更新和增强功能:(i)纳入119,722个新转录本,9,632个新基因,并更新了21,305个lncRNA基因的结构;(ii)在人类lncRNA基因跨40种脊椎动物的保守性特征描述;(iii)整合lncRNA编码的小蛋白;(iv)在更多生物学背景下丰富了表达和DNA甲基化谱;(v)识别lncRNA-蛋白质相互作用并改进lncRNA-miRNA相互作用预测。总的来说,LncBook 2.0收录了95,243个lncRNA基因和323,950个转录本,并在不同的组学层面上进行了丰富的注释,便于用户解读不同生物学背景下lncRNA的功能意义。

引言

LncBook是一个经过精心策划的资源,整合了人类长链非编码RNA(lncRNAs),并系统地使用多组学数据进行注释分析。自2019年推出以来,LncBook已广泛用于描绘人类lncRNAs的转录图谱,揭示lncRNAs的分子特征,并解开lncRNAs在人类疾病中的功能关联。近年来,大量工作致力于在不同组学层面上识别和描述人类lncRNAs,覆盖多种生物学背景,如疾病、正常组织/细胞系、器官发育、亚细胞定位等。特别是,多项证据表明序列保守性是lncRNA功能意义的基本指标,并且lncRNA编码的小蛋白涉及多种功能和多种疾病。因此,迫切需要整合新报告的lncRNAs,并在更多生物学背景下从多个组学层面描述lncRNAs。为此,我们进行了lncRNAs及其注释的全面整合,包括多个生物学背景下的表达和DNA甲基化谱、疾病/性状相关变异、lncRNA-miRNA相互作用、lncRNA-蛋白质相互作用、进化保守特征和小蛋白。最终,我们提供了LncBook的更新版本,与以前的版本相比,该版本进行了显著的升级、扩展和增强。

材料与方法
lncRNA整合和注释

基于之前的版本,LncBook 2.0整合了来自五个资源的lncRNAs,包括RefLnc、GENCODE v33、CHESS v2.2、FANTOM-CAT和BIGTranscriptome。去除了冗余、背景噪音、映射错误、不完整的转录本,以及可能编码蛋白质的短转录本。为提高注释质量,我们还移除了没有链信息的lncRNA转录本,以及根据GffCompare生成的对比结果确定为miRNA前体、小RNA和假基因的转录本。此外,使用了四种算法(CPC2、LGC、CPAT和PLEK)进行编码潜力估算,保留了至少被三种算法识别为lncRNAs的转录本。注释由HGNC和GENCODE提供的lncRNAs不论编码潜力如何都被保留。采用GENCODE和NONCODE的策略,将在相同链上的外显子区域重叠的lncRNA转录本分配为同一个基因。为了满足数据分析的不同需求,提供了lncRNA基因注释文件和包含lncRNA基因与其他基因(来自GENCODE)的整合注释文件。

数据整合和分析

为了进行序列保守性分析,从UCSC Genome Browser Gateway下载了人类和40种脊椎动物的基因组参考、基因注释文件和配对对齐链文件。通过考虑对齐长度并与不同物种内含子的对齐进行比较,识别了lncRNA同源序列/基因。由于lncRNAs通常缺乏高序列保守性,采用20%转录本覆盖率来识别同源lncRNAs,从而收集了至少50nt长度且覆盖率超过20%的对齐。同时,为减少进化距离的影响,如果lncRNAs的对齐性能(由对齐长度和一致性测量)超过内含子的Q50阈值,则确定每个物种的同源序列/基因。lncRNA基因年龄定义为其同源序列在40种物种中最早出现的时间,从最新到最早依次为‘Homo’(人类特异)、‘Hominini’、‘Homininae’、‘Hominidae’、‘Hominoidea’、‘Catarrhini’、‘Simiiformes’、‘Haplorhini’、‘Primates’、‘Euarchontoglires’、‘Boreoeutheria’、‘Eutheria’、‘Theria’、‘Mammalia’、‘Amniota’、‘Tetrapoda’和‘Euteleostomi’。

从COSMIC、ClinVar和GWAS Catalog收集了高可信度的变异和关联。对COSMIC,保留了标记为“已确认的体细胞突变”的变异。根据COSMIC建议,FATHMM-MKL评分大于0.7的变异被定义为疾病相关(致病)变异。在ClinVar中,收集了明确标记为“良性”或“致病”的变异。对于GWAS Catalog,收集了P值小于5×10^-8的关联,这被广泛用于确定常见遗传变异与感兴趣性状之间的关联。最终,根据人类表型本体和实验因子本体统一了疾病和性状名称。所有变异通过BEDTools分配给lncRNAs。

为了描述lncRNAs在人体疾病中的DNA甲基化谱,从TCGA和GEO收集了16个公开可访问的重亚硫酸盐测序数据集,涵盖了14种癌症和2种神经发育障碍。在此,启动子区域定义为转录起始位点相对的-1500bps,并计算了启动子或体区域所有CpG的平均甲基化水平。通过考虑折叠变化、P值、最大和最小甲基化水平的显著性,确定了差异甲基化lncRNA基因。

人类lncRNAs的表达谱来自LncExpDB,涵盖了337个生物条件,可进一步分类为九个生物背景,即正常组织/细胞系、器官发育、胚胎植入前、细胞分化、亚细胞定位、外泌体、癌细胞系、病毒感染和昼夜节律。为了确定基因表达能力,表达值在至少一个生物条件中大于全转录组(包括lncRNA基因和蛋白质编码基因)上四分位数的基因被视为高表达能力,小于下四分位数的基因被视为低能力,其余的基因为中等能力。特色lncRNA基因是在特定细胞系/组织中特异性表达、在不同细胞系/组织中一致表达、在癌症或病毒感染背景下差异表达、在特定细胞器中富集、在细胞分化或胚胎/器官发育期间动态表达、或具有昼夜节律周期性表达的基因。此外,基于表达谱对lncRNA基因的亚细胞定位和组织/正常细胞/癌细胞特异性进行了描述,相关信息列在“基因摘要”中。

从SmProt整合了由Ribo-seq或质谱证据支持的小蛋白。小蛋白通过BEDtools映射到lncRNAs,完全且唯一落在lncRNA转录本内的小蛋白被保留。

基于ENCODE中HepG2和K562细胞系的150个RNA结合蛋白(RBP)的848,077个RBP结合位点,识别了lncRNA-蛋白质相互作用。使用BEDtools将RBP结合位点映射到lncRNAs,完全且唯一落在lncRNA转录本内的RBP结合位点被保留。

使用miRanda、TargetScan和RNAhybrid三种工具预测了更多的lncRNA-miRNA相互作用。在‘Interaction’部分中列出了所有三种工具支持的相互作用以及由任意两种工具支持的相互作用。此外,仅由一种工具预测的相互作用在“Downloads”部分中提供。

实现

LncBook 2.0基于Spring Boot、MySQL和Apache Tomcat Server实现。Web界

面由HTML5、CSS3、AJAX、JQuery、Bootstrap和Semantic UI开发。此外,数据可视化由HighCharts、ECharts、Plotly.js和DataTables提供支持。Web工具由HTML widgets、NCBI BLAST+和内部python脚本设置。

改进内容与新功能
扩展的lncRNA列表和丰富的多组学注释

LncBook致力于提供全面且高质量的人类lncRNAs集合及其基于多组学分析和增值注释的注释。与以前的版本相比,LncBook 2.0在人类lncRNA基因的质量和多组学注释的全面性方面显著提高。

LncBook 2.0通过全面整合不同资源的lncRNAs并以更严格的标准进行注释,提供了一份完整的人类lncRNAs列表。结果,纳入了119,722个新转录本和9,632个新基因,更新了21,305个基因的结构,并提供了高质量的323,950个lncRNA转录本和95,243个基因。由于将相同链上外显子区域重叠的转录本分配为同一个基因,尽管转录本数量增加,但基因数量减少。基于此列表,LncBook 2.0通过包括新的组学谱和覆盖更多的生物背景,提供了更多的注释。

我们描述了人类lncRNA基因在40种脊椎动物中的保守性特征,识别了22,347个人类lncRNA基因的139,306个同源基因,并为5,743个lncRNA基因整合了34,012个lncRNA编码的小蛋白。表达谱在更多的生物背景下进行了丰富,从1个(正常组织/细胞系)增加到9个(正常组织/细胞系、器官发育、胚胎植入前、细胞分化、亚细胞定位、外泌体、癌细胞系、病毒感染、昼夜节律)。此外,DNA甲基化谱的疾病类型从9种癌症增加到14种癌症,并包括2种神经发育障碍。结果,LncBook 2.0包含了24,157个表达特色lncRNA基因(特异性、一致性、差异性、动态性、周期性表达)和19,543个DNA甲基化特色lncRNA基因(启动子或体区域高/低甲基化)。此外,我们注释了50,165个lncRNA基因的959,138个疾病/性状相关变异,识别了2005个lncRNA基因的772,745个lncRNA-蛋白质相互作用,并为所有lncRNA基因预测了146,092,274个lncRNA-miRNA相互作用。

数据内容和组织

LncBook 2.0是一个以基因为中心的资源,具有用户友好的Web界面,用于搜索、浏览、可视化、分析和下载。一个lncRNA基因对应一个网页,该网页由九个部分组成,包括基因摘要、转录本信息、编码潜力、保守性、变异、甲基化、表达、小蛋白和相互作用。对于任何lncRNA基因,这些注释以各种表格形式总结,跨40种脊椎动物的序列保守性在系统发育树中显示,16种疾病中的启动子和体区域的甲基化水平在箱线图中可视化,337种生物条件下的表达谱以柱状图表示。同时,LncBook 2.0允许在LncRNAWiki中的文献注释结果、LncExpDB中的表达谱以及整合数据库中的相关注释进行互动可视化。此外,LncBook 2.0为每种组学资源提供了专门的网页,带有丰富的描述性术语,便于各种定制比较。此外,所有lncRNAs的多组学特征在“Genes”页面中以表格形式总结。基于这些注释,LncBook 2.0在“Statistics”页面中展示了一系列有用的统计和分析结果,并部署了几个有用的在线分析工具。同样重要的是,所有关联数据在“Downloads”页面中公开可用,所有表格和图表在LncBook 2.0中均可自由下载。

功能性lncRNA识别与探索

作为实验研究的替代方法,生物信息学关联研究通过分析多组学数据以探讨lncRNAs的潜在功能。因此,LncBook 2.0致力于提供从进化保守性、基因组变异、DNA甲基化、基因表达、小蛋白和lncRNA介导的相互作用中获取的高质量功能证据,这些证据可用于所有收集的lncRNA基因。

用户可以从多组学关联较多的高度保守lncRNA基因开始,例如,通过设置以下过滤条件:基因年龄≥14,高表达能力,表达和甲基化特色基因,具有疾病/性状相关变异,并编码小蛋白。因此,获得了一份包含100个lncRNA基因的列表。根据多组学关联,我们发现SATB2-AS1与结直肠癌密切相关。它在结肠和直肠中高表达,在结肠腺癌中高甲基化,具有大肠癌相关变异,其编码的小蛋白(SPROHSA260428和SPROHSA260429)也在结直肠癌样本中检测到。一致地,LncRNAWiki中的注释显示SATB2-AS1已被报道与结直肠癌有关。另一个lncRNA,WT1-AS,与白血病密切相关,因为它在白血病样本中高表达和高甲基化,其编码的小蛋白(SPROHSA65308、SPR0HSA264911和SPROHSA326667)也在白血病样本中检测到。一致地,WT1-AS已被实验证实在白血病中起重要作用。此外,LncBook 2.0为这些lncRNAs提供了同源基因,这将为探索不同物种中的生物功能提供新见解。在这100个lncRNA基因中,显然,有50个功能尚未被描述,可以视为实验研究和深入功能研究的有价值候选者。当然,我们相信更多的多组学关联并不一定代表更重要的功能,用户被鼓励根据自己感兴趣的不同组学特征进行定制选择。

讨论与未来发展

作为国家基因组数据中心的重要资源,LncBook与LncExpDB和LncRNAWiki紧密合作,作为一个基本资源,提供全面且高质量的lncRNAs及其注释。考虑到人类lncRNAs数量的不断增加,我们计划开发一个自动化管道和Web服务器,以简化lncRNA的整合和注释,并通过与RNAcentral领域专家的合作对这些lncRNAs进行分类。随着在不同物种中识别到更多的lncRNAs,我们计划通过包含由lncRNA序列比对生成的结果来改进保守性注释。此外,为了更好地解读lncRNAs的特征,我们将继续包括新的组学特征,如lncRNA-DNA/RNA相互作用、组蛋白修饰调控、lncRNA修饰/编辑和结构,整合更多的生物学背景,并进行lncRNAs与其他类型基因(如蛋白质编码基因)之间的比较。随着更多数据集和注释的纳入,我们还计划开发一个稳健的指标来评估lncRNA基因的可信度,并相应地提供一份高可信度的功能lncRNAs列表。

数据可用性

LncBook 2.0可在https://ngdc.cncb.ac.cn/lncbook免费在线访问。

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值