长非编码 RNA 功能预测的异质信息网络模型

文章名:A Heterogeneous Information Network Model for Long Non-Coding RNA Function Prediction

翻译:

摘要

近年来,长链非编码RNA(lncRNA)在功能角色方面的信息引起了大量研究关注。随着RNA-Seq等技术的出现,成千上万的lncRNA在极短的时间内被识别。然而,由于注释率较低,只有少数lncRNA被功能性描述。湿实验室实验来阐明lncRNA功能具有挑战性,进展缓慢且成本高昂。本研究尝试解决开发计算方法来预测lncRNA功能的关键问题。本文提出的模型通过在异构信息网络(HIN)上使用基于元路径的度量AvgSim,预测lncRNA的功能。网络是从现有的lncRNA的蛋白质和功能关联数据、lncRNA共表达数据及蛋白质-蛋白质相互作用数据构建而成。在实验中考虑的2758个lncRNA中,所提方法为2695个lncRNA预测了可能的功能,准确率为73.68%,并且在独立测试集上证明其优于其他先进方法。对两个著名lncRNA(HOTAIR和H19)进行案例研究,并识别其相关功能。结果通过文献中的实验证据进行了验证。用于实现模型的脚本和数据可在以下网址免费获取:http://bdbl.nitc.ac.in/LncFunPred/index.html。

1. 介绍

长链非编码RNA是长度超过200个核苷酸的RNA转录物。它们缺乏功能性作用所需的关键特性,如蛋白质编码潜力和序列保守性。十年前,基因组学认为大多数非编码RNA部分是“垃圾”,不包含有用的遗传信息。然而,最近的研究表明,lncRNA参与了许多生物活动,如细胞类型特异性表达、定位到亚细胞成分、与人类疾病的关联等。这些生物和细胞特性表明lncRNA具有功能性,不再被视为“垃圾”。

虽然迄今为止识别出了大量的lncRNA,但经过适当注释的lncRNA数量并不令人兴奋。lncRNA的发现率与注释率之间的差距导致lncRNA功能知识有限。对lncRNA功能进行注释的湿实验室实验既昂贵又费时。因此,开发预测lncRNA功能的计算替代方法是lncRNA研究中的一个紧迫需求。

传统的生物分子功能预测方法需要过多使用其序列和结构信息。然而,这种策略对lncRNA无效,因为它们的序列保守性低且结构与功能关联的知识不足。结果,网络科学应用于lncRNA研究的一个新领域出现了。这些基于网络的方法比lncRNA的生物学特征更多地依赖于网络中隐含的信息。因此,这种努力在短时间内变得流行。

基于网络的方法建立在两个原则之上。第一是“由关联推断”的原则,该原则指出调节生物过程的基因可能与参与同一过程的基因共表达。第二个原则是生物分子在执行功能时会相互作用。因此,在设计预测lncRNA功能的模型时,lncRNA的相互作用包括其共表达值得重点考虑。

目前的计算预测lncRNA功能的方法主要使用lncRNA与蛋白质之间的相互关系作为构建网络的主要输入。Liao Q等人构建了编码-非编码基因共表达网络(CNC),并基于其邻近蛋白质的功能为约340个lncRNA分配功能。这项工作是预测lncRNA功能的初步尝试之一。在这里,没有考虑蛋白质相互作用的可能性。Xingli Guo等人开发了一种全球lncRNA功能预测工具(lnc-GFP),通过将蛋白质相互作用数据合并到Liao等人使用的共表达网络中。他们为1625个lncRNA注释了功能特征。但是,这些方法都没有使用下一代测序(NGS)数据进行处理。后来,Yun Xiao等人使用基于RNA-Seq数据转录谱的Bayesian网络对lncRNA和蛋白质进行了研究。该方法通过功能富集高连接蛋白质,为762个lncRNA分配了功能。为了注释ncRNA功能,Feng Chen和Yi-Ping Phoebe Chen应用了桥接规则挖掘。他们使用两种不同的度量方法探索ncRNA之间的关系,一种是线性度量,另一种是非线性度量。然后根据关联规则,推测ncRNA的功能。但是,这种方法并非专门用于lncRNA。Qinghua Jiang等人对来自RNA-Seq的lncRNA-蛋白质共表达数据进行超几何检验以预测lncRNA功能。他们将9625个lncRNA映射到其功能及途径。

所有目前文献中的基于网络的方法都将lncRNA-蛋白质相互作用视为设计预测lncRNA功能模型的关键指标。因此,这些方法可以预测具有已知蛋白质关联的lncRNA的功能。为了充分利用基于网络的模型,还需考虑lncRNA-lncRNA的链接。本文提出的方法也考虑了lncRNA-lncRNA链接,并在没有已知蛋白质关联的情况下预测lncRNA的功能。

通过lncRNA共表达数据的引入,解决了没有已知蛋白质关联的lncRNA功能预测问题。构建了一个异构信息网络(HIN),其中lncRNA、蛋白质和功能作为节点类型,并将(a)蛋白质-蛋白质相互作用,(b)蛋白质-功能关联,(c)lncRNA-蛋白质相互作用,(d)lncRNA共表达,以及(e)已知lncRNA-功能关联作为边类型。方法AvgSim的应用用于量化HIN中节点对之间的相关程度,这一灵感来自J. Yang等人采用D. Xiao等人提出的AvgSim方法。

lncRNA-功能对可以通过异构信息网络中的多种路径连接,这些路径在HIN术语中称为元路径。每个元路径都具有语义含义,需要正确解释。如果lncRNA通过蛋白质节点连接到一个功能,那么路径是“lncRNA-蛋白质-功能”,其语义含义是lncRNA通过蛋白质相互作用执行功能。同样,元路径“lncRNA-lncRNA-功能”被解释为功能由lncRNA分子组合执行。元路径及其语义含义将在2.2节中详细讨论。

构建HIN后,通过相关分析提取功能相关的元路径。沿这些相关元路径计算相关性度量AvgSim。将沿不同元路径的AvgSim得分结合起来形成随机森林分类器的特征,进行lncRNA功能预测。

与仅使用lncRNA-蛋白质相互作用的现有方法不同,本文提出的方法利用异构信息网络中的基于元路径的信息进行预测。该方法为总计2695个lncRNA分配了可能的功能。通过交叉验证统计验证了准确性,并通过挖掘最新文献进行了确认。还对两个研究广泛的lncRNA进行了案例研究,结果得到验证。

论文的其余部分组织如下:第2节讨论了构建预测模型所用的数据输入、方法和算法。还概述了用于验证模型预测性能的各种统计参数和所用分类器的详细信息。第3节解释了获得的结果。第4节提供了对结果含义的详细讨论。第5节介绍了案例研究的成果。第6节提供了结论性评论和未来研究方向。

2. 材料与方法

本节描述了预测模型的构建和实验数据集的衍生。首先,正式定义了将在讨论中使用的主要异构信息网络(HIN)概念。

2.2 相关元路径的选择

在任何基于异构信息网络(HIN)的研究中,元路径是一个关键参数,在从HIN中提取有用信息方面起着关键作用。在本研究中,为了量化HLPFN中lncRNA对象和功能对象之间的相关性,使用了称为AvgSim的基于元路径的度量。由于AvgSim是路径约束的度量,因此选择相关的元路径至关重要。在同质网络中,任何对象对之间的所有路径在语义上相似且相对容易处理。相比之下,HIN中,任何给定对象对之间存在多种路径。虽然它们连接了相同的对象对,但在语义上显著不同,并需要仔细操作。

为了演示,考虑HLPFN中的长度为三的元路径:lpf和llf,两者都连接了一个lncRNA对象和功能对象(为了简单起见,省略了对象之间关系的名称)。元路径的语义可以通过考虑连接它们的关系来确定。

相关元路径是传递有用信息以解决HIN问题的元路径。在大多数情况下,相关元路径由领域专家根据问题的特殊性和输入数据集建议。在我们的问题中,尚不知道每个lncRNA功能机制的确切知识。因此,需要将HLPFN中的每个元路径视为同样相关。这一假设要求自动化选择相关元路径的过程。

暴力方法是考虑所有连接lncRNA和功能的元路径,并检查其有效性。该方法不可行,因为随着元路径长度(元路径中的对象数量)的增加,可能的元路径数量呈指数增长,使问题变得无法处理。一个解决方案是遵循HIN研究中的典型趋势。

通常在HIN中,无限增加元路径长度是没有意义的。显然,在冗长的元路径中,连接起始和结束对象的关系链可能非常长。因此,不智能地增加元路径长度通常会适得其反,并且会产生准确性较低的结果。鉴于这一认识,大多数基于HIN的方法提前为元路径长度设置一个上限。它们仅考虑小于该阈值的元路径。在设置此类阈值时,确保结果不因删除较长路径而受到严重影响。如果结果受影响,则必须重新考虑阈值,这种做法合理化了阈值限制的设定。通常,阈值限制可以随机、经验或启发式地设置。

在本研究中,采用了一种经验方法。从长度三开始,迭代估计所有lf元路径与现有lf关联之间的相关性。在负相关元路径计数等于正相关元路径的一半时,迭代停止。此时的路径长度作为长度阈值。随后的两段文字详细解释了此过程。

在第一步中,对元路径长度进行迭代过程,以识别要包括在实验中的候选元路径。由于问题是找到lncRNA和功能之间的相关性,因此只考虑以lncRNA(l)开头并以功能(f)结尾的元路径。迭代必须从最小的可能元路径开始:lf,长度为二。实际上,这条路径代表了现有的lncRNA功能关联,并对应于HIN中的直接lf链接。因此,在实践中,迭代从元路径长度三开始。在每次迭代中,形成一个向量,该向量是每对lncRNA和功能之间该类型元路径的总数,称为元路径向量。

第二步是选择相关元路径。如果正在考虑的元路径是相关的,则根据网络属性,其在lncRNA和功能之间的计数会更多。这意味着lncRNA很可能执行该功能。相反,如果元路径的数量较少,则lncRNA执行该功能的概率很小。为了量化这种趋势,对元路径向量进行相关性分析,并与已知的lf关联向量进行比较。所有与已知lf关联呈正相关的元路径被认为是相关的,其他则为不相关。终止条件的制定方式为:当负相关元路径的数量等于正相关元路径的一半时,迭代停止。如前所述,迭代从元路径长度三开始,重复直到满足终止条件。在本研究中,终止条件在元路径长度四时满足,此时取长度阈值为四。

元路径向量长度三、四和五的相关性分析如图3所示。显然,在第三次迭代中,存在三个负相关路径在八个可能的长度为五的元路径中。因此,路径长度固定为四。因此,获得的相关路径为:lpf、llf、lllf、llpf和lppf。


2.6 分类器的选择

在进行实际预测过程之前,已经确定了最适合输入数据并能产生最佳结果的模型。这是通过比较不同分类模型在选定数据集和实验设置下的性能来实现的。候选模型包括:(a) 人工神经网络 (ANN),(b) 梯度提升机 (GBM),(c) 广义线性模型 (GLM),(d) 随机森林 (RF),以及 (e) 支持向量机 (SVM)。每个模型都使用 R 语言实现,并通过 10 倍交叉验证进行评估。结果总结在图 4 中。RF 模型在五个候选模型中显示了最佳准确性,因此被选为实验使用的模型。

3 结果

该模型以 73.68% 的准确性预测了 2,695 个 lncRNA 的新功能。其他性能指标的数值列在表 2 中。有些 lncRNA 被预测具有多种功能。功能预测结果表明,lncRNA 主要参与生物过程,而不是细胞功能或分子功能。该方法能够预测许多先前未知的 lncRNA 的功能。

这些功能取自 GO 联盟。GO 本体根据某些功能类别(称为 GOSlim、GOBasic 等)在它们之间遵循父子关系。这里的功能 GO 术语根据其 GOSlim 类别分类,以理解 lncRNA 执行的各种功能。按类别的列表显示在表 3 中。该表显示了功能类别列表及属于该类别的 GO 术语计数。表明 lncRNA 执行的重要功能是生物过程、代谢、发育、细胞组成和分子功能。这些结果是使用 CateGOrizer 工具获得的【25】。

3.1 与其他方法的比较

我们将模型与两种最新的模型 LncRNA2Function【13】和 NeuraNetL2GO【42】进行了比较,使用的是一个由 Zhang 等人在 NeuraNetL2GO【42】中提供的免费测试集 lncRNA2GO-55。通过 F 值 (F)、精确度 (PRE) 和召回率 (REC) 这三个指标进行性能比较,结果显示我们的模型表现最佳。图 5 展示了性能比较的结果。在覆盖率(注释的 lncRNA 与总 lncRNA 的比率)方面,所提出的方法也显示出了令人满意的表现(表 4)。

4 讨论

本节分为两部分。第一部分描述了选择元路径时使用的各种度量。在第二部分,解释了 lncRNA 共表达子网络对最终结果的影响。

4.1 选择元路径所采取的措施

在这里,我们讨论了元路径作为 RF 分类器特征的相对重要性。此外,还提供了一个分析确认,证明相关路径选择过程中识别的路径确实是相关的。最后一部分确立了将元路径长度的上限设置为四的正确性。

4.1.1 元路径的相对重要性

在长度阈值内构成分类器特征集的各种元路径包括 lpf、llf、lplf、lppf、llpf 和 lllf(来自第 2.2 节)。RF 分类器根据特征在获得最终预测结果中的重要性和影响力对其进行排名。此排名在图 6 中以图形方式显示。路径 lllf、llpf 和 llf 排名较高。在直接 lncRNA-蛋白质相互作用数量有限的实验设置中,采用基于元路径的方法有助于通过整合 lncRNA 的共表达网络,通过路径 lllf 和 llf 揭示 lncRNA 的功能。

4.1.2 相关路径选择的正当性

本节证明了第 2.2 节中描述的相关元路径选择过程的正确性。整个解释基于图 7。可以从第 2.2 节回忆到,元路径 lpf、llf、lllf、llpf 和 lppf 被确定为相关的,而 lplf 被认为是不相关的。

通过包括所有长度为四的路径并测量准确性来进行实验。首先,去除方法学建议的无关路径(lplf)。这样做提高了准确性,确认了该路径确实无关。这从图 7 可以明显看出。尽管路径 lpf、llf 和 lppf 是正相关的,但与 lllf 和 llpf 相比,它们的相关系数较低(请参阅第 2.2 节的图 3,了解相关系数)。移除高相关系数的路径 lllf 和 llpf 会降低准确性,表明它们确实是相关的。而当单独移除低相关系数的正相关元路径(lpf、llf 和 lppf)时,准确性并未降低(事实上得到了提升)。然而,不能将它们认为是真正无关的,因为当它们中的每一个与无关(且已移除)的 lplf 一起移除时,准确性受到影响。这意味着,当单独移除和与无关且已移除的 lplf 一起移除时,这些路径对准确性产生相反的影响。结论是,lpf、llf、lllf、llpf、lppf 是真正相关的,不能被移除,因为 lplf 已被移除。因此,证明了元路径的自动选择过程产生了真正相关/无关的元路径。

此外,选择的相关元路径在生物学证据方面也具有重要意义。无关的元路径 lplf 的语义是 lncRNA 与一种蛋白质相互作用,而这种蛋白质反过来又与 lncRNA 相互作用以执行功能。根据目前的证据,蛋白质直接执行功能,并且很少通过 lncRNA 衍生其功能【1】。而由自动选择过程确定为相关的所有相关元路径的语义含义被发现与生物验证的 lncRNA 功能机制密切相关。

4.1.3 元路径长度上限的合理性

第 2.2 节中描述的元路径长度上限被固定为四。模型的整体复杂度为 O(n2+mg+lfmlog⁡m)O(n^2 + mg + lfm \log m)O(n2+mg+lfmlogm),其中 nnn 是实验中存在的 lncRNA/蛋白质/功能的最大数量,mmm 和 ggg 分别表示元路径的数量和长度,lll 和 fff 表示实验中 lncRNA 和功能的数量。需要注意的是,实验中包含的元路径数量和长度(mmm)在确定整体复杂度中起着主要作用。此外,我们可以通过根据预先固定的长度阈值选择或舍弃元路径来灵活调整这两个参数。

ROC 曲线分析表明,这种选择是最优的,因为较长元路径结果的改进与处理更多更长元路径所投入的计算时间不成比例。路径长度为三、四和五的实验的 ROC 曲线如图 8 所示。长度为四的元路径实验显示出比长度为三的明显更好的性能。而长度为五的元路径实验并没有将结果提高到可以弥补处理长度为五的元路径所需的额外计算开销的程度。因此,对于所选数据集,将元路径长度的上限选择为四是最优的。

4.2 lncRNA 共表达数据的纳入效果

本文增加的一个创新点是将 lncRNA 共表达数据纳入网络中。此信息有助于识别功能相似的 lncRNA。通过在 24 种组织中使用 lncRNA 的共表达谱来发现 lncRNA 之间的相似性。临床证据证实,lncRNA 具有组织特异性表达,其位置极大地影响其所执行的功能。因此,lncRNA 的组织特异性共表达细节可以更清晰地识别出功能相关的 lncRNA。考虑到这一事实,可以得出结论,纳入 lncRNA 共表达数据确实有助于提高预测准确性。这一推测通过对包含和不包含 lncRNA 共表达数据的网络中功能预测结果的 ROC 曲线分析得到证实。分析在图 9 中以图示方式表示。当在异构信息网络(HIN)中舍弃 lncRNA 共表达网络时,AUC 的持续下降得到了体现。

5 案例研究

为了进一步展示所提出模型的预测性能,我们进行了一个包含两个知名 lncRNA 的案例研究。选择的 lncRNA 是 HOTAIR 和 H19,其 NONCODE 标识符分别为 NONHSAG011264 和 NONHSAG007409。案例研究主要关注这些 lncRNA 的临床确立的预测功能关联。然而,它也涵盖了由该模型预测的几个最突出的功能关联,即使这些尚未经过实验验证。这些在相应的表格中被标记为“未报道”。“未报道”案例的列表并不详尽。

5.1 HOTAIR

HOX 转录反义 RNA (HOTAIR)[26] 是位于染色体 12 上的 lncRNA。它与 HOXC 基因共同表达。HOTAIR 是一个在一条染色体上表达的 RNA,它被发现能够影响另一条染色体的转录。HOTAIR 基因包含 6,232 个碱基对,并编码 2.2 kb 的 lncRNA 分子。HOTAIR 与多种疾病相关,其异常表达导致各种癌症的发展。它被归类为癌基因 lncRNA。

模型预测的 HOTAIR 的二十五个主要功能在表 5 中展示。研究成功预测了几乎所有当前文献中存在证据的 HOTAIR 功能关联。

5.2 H19

H19 位于染色体 11 上。它在疾病如 Wilms 肿瘤 2 和 Beckwith-Wiedemann 综合症中发挥关键作用,并在某些癌症中作为肿瘤抑制因子。它参与肿瘤发生的所有阶段。它具有高度保守的结构,其功能依赖于结构【33】。H19 与高血压、冠状动脉疾病、动脉粥样硬化、缺血和心力衰竭有关【34】。模型预测的 H19 的二十五个重要功能在表 6 中总结。可以观察到,模型成功预测了 lncRNA H19 的最重要和经过实验验证的功能关联。

6 结论与未来工作

越来越多的证据表明 lncRNA 在生物和细胞活动中发挥功能作用,这推动了快速和高效的 lncRNA 功能注释这一当代研究课题的发展。由于湿实验室对 lncRNA 进行功能注释的过程既昂贵又繁琐,计算替代方案近年来引起了极大的研究关注。这里提出的工作是通过蛋白质相互作用数据和共表达细节预测 lncRNA 的功能。尽管现有的方法大多集中在 lncRNA 的蛋白质相互作用上进行功能注释,但这种方法除了考虑蛋白质相互作用外,还考虑了 lncRNA 的共表达相似性及其与现有功能的关联。更重要的是,该方法能够将功能与即使缺乏蛋白质相互作用的 lncRNA 关联起来。

研究表明,应用于元路径的 AvgSim 能够有效评估 lncRNA 功能对在异构信息网络(HIN)中的相关性。该模型的总体预测准确率达到了 74%。

未来的一个可能研究方向是将更多关于 lncRNA 的信息纳入网络。已证明 lncRNA 可以与不同类型的生物分子相互作用,如 RNA、miRNA 和 siRNA。将此类相互作用细节整合到模型中可能会提高预测性能。通过将更多 lncRNA 的生物特征纳入模型,结果的准确性可能会进一步提高。此外,当前的工作使用基于相关性的程序来设置元路径长度的上限。通过用通用且良好制定的算法取代此方法,可以使方法学更加有效。这无疑将有利于使用元路径的所有异构信息网络挖掘任务,而不论其应用领域。

总结版:

大纲:

1. introduction

2. materials and methods

2.1 Heterogeneous LncRNA-Protein-Function

Network (HLPFN)

2.1.1 lncrna-protein interaction network

2.1.2 protein=protein interaction network

2.1.3 lncrna co-expression network

2.1.4 lncrna function association network

2.1.5 protein function association network

(先根据5种交互构建HIN网络)

2.2 selection of relevant meta-paths

(构建好网络之后在网络中选择元路径,找以lncRNA为起点,以功能 为终点的元路径,元路径的长度一直增加对结果并没好处,需要设置一个长度的阈值,本文用经验方法确定合适的元路径长度;与已知的lncran-功能lf为参考,迭代过程中当负相关的数是正相关数的一半时停止迭代,最后确定5种元路径:lpf、llf、lllf、llpf、lppf)

2.3 AvgSim

(用avgsim度量方法确定 在HIN中找到的两个对象之间的相关性,两个对象之间的AvgSim值是给定元路径和其反向路径下可达概率的平均值)

2.4 details of the classifier

(用随机森林模型,该模型利用特征矩阵中的AvgSim得分作为输入特征,通过多个决策树学习lncRNA和功能之间的关联模式)

2.5 performance evaluation metrics

(训练和测试过程:

训练集: 从NONCODE数据库获取的lncRNA-功能关联数据中抽取正样本(已知功能关联的lncRNA对),负样本则通过对非关联对的随机抽样生成。

测试集: 使用k折交叉验证和独立的测试集(如lncRNA2GO-55)来评估模型性能 ​)

2.6 choice of the classifier

3. Results

3.1 comparison with other approaches

4. Discussion

4.1 measures taken in meta-paths selection

4.1.1 relative importance of meta-paths

4.1.2 justification of relevant path selection

4.1.3 justification for upper threshold on meta-path length

4.2 effect of inclusion of lncrna co-expression data

5. Case study

5.1 hotter

5.2 H19

6.cinclusion and future work

  • 28
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值