基因疾病关联的图卷积神经网络

最新推荐文章于 2024-05-04 07:34:16 发布

wangchuang2017

最新推荐文章于 2024-05-04 07:34:16 发布

阅读量2k

点赞数 1

文章标签：神经网络深度学习 pytorch

本文链接：https://blog.csdn.net/u010608296/article/details/120181511

版权

生物信息学同时被 3 个专栏收录

642 篇文章

订阅专栏

神经网络(Neural Network)

5 篇文章

订阅专栏

gene–disease predictions

2 篇文章

订阅专栏

该研究提出了一种基于图卷积神经网络（PGCN）的疾病基因关联预测方法，解决了传统方法受限于人工特征、网络拓扑或预定义规则的问题。PGCN通过异构网络学习基因和疾病的嵌入表示，实现端到端的关联预测。实验结果显示，PGCN在疾病基因排序和新关联预测上表现出优越性能，证明了其在生物信息学中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基因疾病关联的图卷积神经网络

本文要介绍的是沙特阿卜杜拉国家科技大学高兴副教授课题组发表的一篇关于图卷积神经网络的基因疾病关联预测的论文。对候选基因排序对于遗传疾病基于基因的诊断是至关重要的。然而，由于有限、噪声的基因、疾病及其其关联的信息，这是一个极具挑战性的任务。而许多疾病基因排序计算方法，其性能很大程度上受到人工的提取特征、网络拓扑或预定义的数据融合规则的限制。作者提出一种新的基于图卷积网络的疾病基因排序方法PGCN。通过由基因、疾病以及各自的特征构成的异构网络的系统嵌入，嵌入学习模型和关联预测模型以端到端的方式组合在一起。实验结果表明，PGCN显著优于其他现有的预测方法。研究背景现有的疾病基因排序方法可以分为几类：基于文本挖掘方法、基于相似性方法、基于网络方法、基于矩阵填充方法等。尽管现有努力取得了进展，但仍然存在瓶颈。首先，基于相似性方法无法处理新的疾病相关基因未知。其次，基于网络的方法合理，其受网络拓扑结构的影响，不容易集成关于疾病和基因的多源信息。第三，矩阵补齐方法假设基因和疾病之间存在加权线性关系。此外，大多数现有的方法严重依赖于手工提取特征。另一方面，深度学习和图模型在生物信息学中的应用。为此，作者提出一种新的疾病基因排序方法，由分子交互网络、疾病相似性网络、已知疾病-基因关联网络以及与基因和疾病相关的附加信息构成的异构网络。此方法首先通过图卷积神经网络得到基因和疾病相关的嵌入，同时考虑网络拓扑和疾病、基因的附加信息。嵌入形式送入边解码(边预测)模型。尽管此方法用两个步骤描述，但此模型以端到端的方式对模型进行训练。模型与方法方法框架方法框架如图1所示。 (A)模型的输入包含两个组件：异构网络和节点的附加信息。其中异构网络采用HumanNet作为基因网络，疾病相似性网络作为疾病网络，OMIM的关联网络作为疾病-基因网络。对于疾病的附加信息，我们使用疾病本体相似度和OMIM计算的TF-IDF。为了获得基因的额外信息，我们使用了从其他物种的关联矩阵和基因表达微阵列数据。 (B)用于学习图卷积神经网络的节点嵌入的一层更新示例。对于每个节点模型从它的邻居节点之前层嵌入聚合信息，然后应用激活来获得该节点的当前层嵌入。对于不同的节点，计算图可以不同，但相同的操作在不同的计算图中共享参数。 (C)链路预测模型，我们从学习到的节点嵌入用双线性边解码器对于边预测建模。 (D)根据真实值和模型预测值计算交叉熵作为损失函数，以端到端方式训练节点嵌入模型和边解码模型。图1. 方法框架数学公式在每一层，对于每一个节点，信息聚集和转换形式，如公式1所示。（1） (2) 采用ReLU 以为例：以为例: 从GCN嵌入学习重构网络边，使用双线性解码器作为边解码器，如公式3所示。 (3) ：疾病节点学习的嵌入表示。：疾病节点学习的嵌入表示。：可训练矩阵。采用sigmoid。使用交叉熵损失作为损失函数评估模型，如公式4所示。 (4) (5) 实验结果 PGCN的预测性能首先，作者使用以下标准(AUROC、AUPRC、Recall@K)评估提出的方法和对比方法。其次，评估了不同方法对新基因、新疾病的关联预测性能。作者提出的方法优于现有的疾病基因排序方法。图2. 预测性能比较嵌入的生物意义作者为了可视化disease和gene的embedding的意义，采用t-SNE进行降维，将32维的embedding vector降为两维，根据聚类的颜色表示不同关联得分的相似性，说明embedding向量是基因或者疾病的低维表示，并且学习了两者的关联信息。其可视化嵌入的结果如图3所示。图3. 利用t-SNE在二维空间中可视化嵌入的聚类总结作者在这个工作中提出了一种新的、统一的疾病基因排序的框架。该方法使用图卷积神经网络结合异构网络拓扑结构、疾病和基因的邻居信息以及疾病、基因相关信息自动学习疾病和基因的嵌入表示，嵌入模型和关联预测模型以端到端的方式训练。实验证明该方法在恢复缺失关联以及发现新基因或新疾病关联的性能优越。其框架是通用的，可以应用到计算生物学的其他重要问题，比如药物-疾病关联等。作者信息

背景

文章使用图卷积神经网络做疾病基因的优先级排序(Proper prioritization)，并取得不错的效果，我也发现有越来越多的人来使用图卷积来表达关联关系，例如上个月发表在cells的一篇文章同样也是用的图卷积做lncRNA和Disease之间的关联，并做了很多分析。

作者的motivation：候选基因集的优先级对于基因相关疾病十分重要，传统方法基于hand-craft特征，基于规则或者基于统计，无法对数据进行更好的表达

论文地址: https://www.biorxiv.org/content/biorxiv/early/2019/01/28/532226.full.pdf ，preprint中

源码地址：https://github.com/lykaust15/Disease_gene_prioritization_GCN，使用的框架是tensorflow+python3.6

目前该方向已有算法：

GeneHound(2018)
IMC(2014)
GCAS(2018)
Catapult(2013)

上述的主流算法可以分为一下几类：

filter methods: 候选list根据属性关联性划分为小的集合
text mining：根据文本中的疾病信息和基因做关联，计算关联得分，但只能socre已有基因
similarity profiling&data fusion：相似基因关联相似疾病(推荐系统的user-item)，从不同数据集中得到归一化ranking, 最后top-N排序
network-based methods：用图网络之类表示edge-node关联
matrix completion techniques：关联矩阵，(推荐系统的高维user-item matrix) ，矩阵评分填充

计算流程

将disease和gene的特征作embedding, 并看作图网络的节点，边的值代表关联的权重，和相关性正相关，需要计算的是不同疾病对于不同基因的相关性，也就是上图中的candidate interaction 从已知的图结构中推测未知边的权重得分.

输入：disease的关联图， gene<->gene关联图， gene<->disease关联图，disease和gene的embedding特征
子网络：gene network + disease similarity network + disease-gene network(最后有12331 genes, 3215 diseases, 3988 disease-gene的关联信息)-> 关联关系比较少
输出：未知edge的权重(二分类训练)