读《Prioritizing disease genes with animproved dual label propagation framework》

本文提出了一种改进的双标签传播(IDLP)框架,用于疾病基因优先排序。IDLP在蛋白质相互作用(PPI)网络和表型相似网络上交替进行标签传播,同时考虑了假阳性PPI的影响,以提高预测精度和鲁棒性。通过在OMIM数据集上的广泛实验,IDLP相比于其他先进方法,表现出更高的预测准确性和对PPI网络噪声的抵抗力。实验结果验证了IDLP预测的新基因与已知疾病相关,证明了其在发现新疾病基因中的潜力。
摘要由CSDN通过智能技术生成

摘要

背景:

疾病基因优先排序是试图找出某一特定表型的潜在致病基因,从而揭示人类疾病的遗传基础,促进药物的开发。

本文的动机是受到标签传播算法假阳性蛋白质-蛋白质相互作用的启发。假阳性蛋白质-蛋白质相互作用此前没有在疾病基因优先排序中被考虑过。在以往的基于网络的方法中,标记传播已经成功地应用于对致病基因进行优先排序。这些基于网络地方法使用基本的标签传播,比如随机游走,在网络上以不同的方式优先考虑疾病基因。

然而,这些方法不能处理数据集中存在大量假阳性蛋白相互作用的情况,因为在以往的方法中,PPI网络都是固定的输入。数据源的这一重要特性可能会导致结果出现较大偏差。

结果:

本文提出了一种新的基于网络的IDLP框架来优先选择候选疾病基因。

IDLP可以有效地在PPI网络和表型相似网络中传播标签。它避免了在已知的疾病基因很少的情况下方法失效。同时,IDLP将PPI网络矩阵表型相似度矩阵作为待学习矩阵,对假阳性蛋白相互作用等潜在因素造成的误差进行建模。通过对训练矩阵中的噪声进行修正,显著提高了训练效果。

本文在OMIM数据集上进行了广泛的实验,与八种最先进的方法相比,IDLP证明了它的有效性。通过对受干扰的PPI网络进行实验,验证了IDLP的鲁棒性。此外,通过文献检索,验证了IDLP预测的新基因与已知疾病相关,较高的预测精度表明IDLP可以帮助生物学家发现新疾病基因的有力工具。

正文

一、背景

疾病基因优先排序的目的是识别潜在致病基因的查询表型。准确识别相应的疾病基因是系统理解复杂疾病的分子机制的第一步。此外,了解与疾病相关的基因对诊断和药物开发也至关重要。然而,疾病相关基因的识别并不是一项容易的工作,这仍然是生物信息学领域的主要挑战之一。

随着系统生物学研究的积累,研究表明,在生理或功能上接近的基因往往参与相同的生物学途径,对表型的影响相似。基于这样的假设,许多基于网络的优先排序方法被开发出来,以优先选择候选基因。

早期的算法根据候选基因和已知疾病的相似性对其进行优先排序。尽管这种类型的方法性能很好,但它们仍然有两个限制:

  1. 第一个限制是由于这些方法只考虑了同质网络(即PPI网络)上的标签传播。因此,当与疾病相关的基因很少时,这些方法容易失败。后来又提出了集成异构网络的方法。通过在PPI网络和表型相似网络上传播标签,进一步提高了预测效果。
  2. 第二个限制是假阳性。高通量技术已经产生了大量的蛋白质相互作用数据。然而由于测量技术的不准确,在现有的蛋白质=蛋白质相互作用数据中存在大量的假阳性他。由于以往方法,采用的交替迭代学习方法,PPI网络只能作为一个固定的输入,PPI网络中蛋白质之间的假阳性相互作用会引入偏差,这些噪声数据很可能会导致性能不太令人满意。

为了解决这些问题,本文提出了一种改进的双标签传播(Improved Dual Label Propagation)方法。动机是受到标签传播和PPI网络中假阳性蛋白质-蛋白质相互作用的启发。

标签传播在同构网络和基因与表型之间的关系启发本文在异构网络上构建双重标签传播框架,假阳性蛋白质相互作用激发本文认为PPI网络变量需要学习而不是一个固定的输入。

本文将基因网络和表型相似网络与基因-表型关联联系起来,构建了一个异质网络。将基本标签传播框架从同质网络扩展到异构网络上的双标签传播。选择查询急病表型和查询疾病基因作为种子节点,在异质网络上进行标签传播。在此基础上,本文提出了一种改进的双标签传播框架,以减少假阳性蛋白-蛋白相互作用带来的偏差。将PPI网络邻接矩阵作为IDLP框架下待学习的变量,通过优化IDLP的损失函数,从噪声中修正其值。在对训练数据过拟合的情况下,引入额外的正则化项来约束PPI网络矩阵中的值与其初始值一致。在表型相似网络中也引入了相同的正则化项。通过最小化损失函数优化目标矩阵。在此基础上,本文提出了一种有效的封闭解(closed-form solution),以提高计算效率。

本文的贡献可以概括为以下两个部分:

  1. 首次通过直接建模将基本标签传播从同质网络扩展到异构网络,直接建模有标记数据和未标记数据之间的损失函数,从而可以在损失函数中加入额外的约束条件。相反,之前几乎所有的工作都采用了交替迭代策略,但这种策略并不能有效地处理约束。
  2. 首次考虑假阳性PPI,该误差正则化项极大地帮助我们减少了对数据的干扰,提高了基因-表型预测任务的精度。

方法

数据准备

从OMIM数据库下载了人类基因-表型关联的两个版本:2015年8月版和2016年12月版。2015年8月版包含了4392个表型和3400个基因之间的5117个关联;2016年12月版包含了4741个疾病表型和3638个基因之间的5465个关联。

人类蛋白相互作用(PPI)网络从BioGRID获得的2015年8月版。PPI网络包含356720个双向相互作用的19511个基因。

疾病表型网络是由8004个顶点表示OMIM疾病表型的无向图,通过文本挖掘计算两种表型之间的疾病表型相似性。

筛选分离基因和疾病表型后,得到4120个疾病表型和3292个基因之间的4678/4801个关联(2015年8月版/2016年12月版),并提取相应的PPI网络和疾病表型相似网络。

表一 实验数据统计
统计 数值
基因数量 3292
表型数量 4120
基因-表型关联数量(2015年8月/2016年12月) 4678/4801
每个表型平均关联基因数(2015年8月/2016年12月) 1.1354/1.1653
每个基因平均关联表型数(2015年8月/2016年12月) 1.4210/1.4584
只包含一个疾病基因的表型占比(2015年8月/2016年12月) 91.87%/94.10%
只包含一个相互作用表型的基因占比(2015年8月/2016年12月) 66.22%/66.74%
PPI矩阵稀疏度(2015年8月) 99.74%

符号

表二 符号
符号 描述
n 基因数量
m 表型数量
X_{i{\cdot}} 矩阵X的第i行
X_{\cdot {j}} 矩阵X的第j列
W_1\in \mathbb{R}^{n*n} PPI二进制网络
W_2\in \mathbb{R}^{m*m} 表型相似度网络
\overline{S}_1\in \mathbb{R}^{n*n} 标准化PPI网络\overline{S}_1={D_1}^\frac{-1}{2}W_1{D_1}^\frac{-1}{2}
\overline{S}_2\in \mathbb{R}^{m*m} 标准化表型相似度网络\overline{S}_2={D_2}^\frac{-1}{2}W_2{D_2}^\frac{-1}{2}
\widehat{Y} \in \mathbb{R}^{n*m} 已知的用于训练的二进制基因-表型关联
Y \in \mathbb{R}^{n*m} 要学习的基因-表型关联
S_1 \in \mathbb{R}^{n*n}<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值