DrugCom: Synergistic Discovery of Drug Combinations using Tensor Decomposition

最新推荐文章于 2024-09-14 19:18:15 发布

qq_37637914

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量656

点赞数

分类专栏：张量分解论文文章标签：机器学习

论文同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

张量分解

4 篇文章 0 订阅

订阅专栏

DrugCom是一种利用耦合张量分解来预测药物组合的技术，旨在从多个不完整数据源中推断药物-药物-疾病相互作用。它解决了全张量恢复和融合现有知识的问题，通过统一框架结合药物和疾病的多视图信息，减少噪声和信息缺失，提高预测性能。实验比较了DrugCom与其他先进模型，展示了其在药物组合预测中的优势。

摘要由CSDN通过智能技术生成

DrugCom：利用张量分解协同发现药物组合。药物×药物×疾病，利用耦合张量分解。可以根据多个不完整的数据来源推断出对疾病有益的药物组合。

耦合性

耦合性也叫块间联系。指软件系统结构中各模块间相互联系紧密程度的一种度量。模块之间联系越紧密，其耦合性就越强，模块之间越独立则越差，模块间耦合的高低取决于模块间接口的复杂性，调用的方式以及传递的信息。

DrugCom

首先从药物(如化学结构)和疾病(如疾病表型)的多个数据源中构建一个初级三阶张量(即药物×药物×疾病)和几个相似矩阵。目标函数同时分解耦合张量和矩阵来揭示药物-药物-疾病相互作用的基础结构。这样做可以使DrugCom减轻每个单独数据源中包含的噪音和偏见，从而提高其整体性能。
在这里插入图片描述
DrugCom概述，它利用耦合张量矩阵分解来学习药物×药物×疾病关系的隐藏结构和辅助信息。
输入可以组织为一个三阶张量X，其大小为N×N×M(即药物×药物×疾病)，其中张量的前两个模态的项对应N×N个药物对，第三个模态包含M种不同的疾病(图1)。
条目Xijk = 1表示药物对(ci, cj)可以治疗dk疾病。

问题定义

我们定义的药物组合问题如下:给定一组疾病M和一组药物对N×N，在O中可以部分观察到疾病和药物对之间的相互作用,我们的目的是预测一对潜在的药物是否可以治疗某些疾病di。也就是说，联合用药预测的目标是解决全张量恢复问题，得到X。

问题1：全张量恢复。

给定一组药物和疾病，仅观察到部分药物联合治疗(即O)，如何恢复全张量X以获得新的药物联合适应症?
药物化学结构、药物靶蛋白、疾病表型等，代表了对药物和疾病的不同视图。在大多数情况下，可以进一步总结药物-药物和疾病相似性/核矩阵等数据，以便纳入分析。
在这里插入图片描述
药物的nc个视图构建的相似性矩阵

疾病的nd个视图构建的相似性矩阵，两者都被假设为对称和非负的
合并来自不同来源的多个异构数据的一大挑战是数据缺失。因为数据收集的性质(例如，不同的实验室在不同的时间出于不同的目的生成了不同的数据集)，不太可能所有的数据集都适用于所有的药物/疾病例如，根据目标蛋白图谱来定义药物-药物相似性，并不是所有的药物都有目标蛋白信息。当一个数据点有一个属性缺失时，基于此属性定义的相似性矩阵(或内核)将缺少完整的行和列(图1)。提议的DrugCom也将解决第二个问题。

问题2：合并现有的知识。

如何有原则地使用关于药物和疾病的现有知识(即来自不同数据源的几个不完全相似矩阵)，以减轻噪音和信息缺失?
DrugCom通过将主张量与多视图侧信息在一个统一的框架中分解，同时解决了上述两个问题。通过整合现有的药物和疾病知识，DrugCom可以有效地识别每种疾病的顶级药物对。

A.恢复主张量

我们用张量因式分解来解决第一个问题。设X表示第二章中描述的N×N×M大小的药物-药物-疾病张量。DrugCom使用r秩因子分解同时分解X(第三种模式)的所有疾病切片Xk(缺失的X(:，:， k))，:
在这里插入图片描述
在Xk∈R N×N是对称的,包含所有疾病dk的药物对，U∈R N×R包含所有疾病共享的药物的潜在成分代表，~Vk∈R R×R是对角的并且仅表示疾病dk的潜在因子。R是一个用户定义的参数，它指定了潜在因素的数量。Eq.(1)可以用对称矩阵分解方法[13]解释为药物对在疾病域中的网络聚类。特别是，通过要求相同的药物潜在因子U, DrugCom同时分解跨越所有疾病的药物-药物网络。进一步指出Eq.(1)与双模对称的三阶张量CP模型的一个特例[8]的因式分解有联系，在引理1中得到了证明(略去证明)。
引理1。式(1)等价于INDSCAL因式分解
在这里插入图片描述
。。。。。

B.模型方面信息

为了利用现有的药物和疾病知识，我们采用矩阵分解的方法从多个数据源[10]中学习多个不完全核矩阵。关键的想法是将所有关于药物(疾病)的视图分解成类似的潜在因素。因为所有的视图都代表相同的实体，所以它们应该共享一些共同的潜在结构。这样做可以使DrugCom减轻每个单独数据源中包含的噪声和缺失数据。形式上，从药物的多个视图学习一个通用的潜在结构，目标函数为：
在这里插入图片描述
其中U(i)∈R N×R是第i个视图的药物潜在因子，U∗∈R N×R是所有视图共有的一致的药物潜伏结构。第一项是每个视图的分解，第二项是U(i)和U∗之间不一致性的度量。

是U(i)的比例矩阵，因为在同一尺度下，不同的视图可能无法进行比较

C.DrugCom:优化

将Eq.(1)中的张量分解模型与Eq.(2)中的矩阵分解模型相结合，首先需要了解Eq.(1)中的药物潜在因子U与Eq.(2)中的共识药物潜在因子U之间的关系。一般来说，张量X中的药物对也可以看作是药物特征的一种观点，表明药物在治疗不同疾病时的作用机制。因此，U和U*应该靠近，因为它们反映的是同一种药物的性质。为了结合Eq.(1)和Eq.(2)的目标函数，我们要求两个药物因子矩阵相同。通过合并疾病信息，我们获得了一个统一的框架，DrugCom，从多个数据源同时学习张量和相似矩阵：
在这里插入图片描述
其中W是与X相同大小的权张量，如果观测到Xijk，则Wijk = 1;否则0。

V(j)的尺度矩阵P(j)可以像前面Q(i)一样定义，Ω表示变量域。权重参数αi和βj代表第i个药物视图和第j个疾病视图的相对强度，即A(i)和B(j)在塑造张量的分解中有多重要。对药物和疾病潜在因素的非负性约束可以导致更可解释和直观的结果[8]。

D.DrugCom：优化算法

利用乘法更新规则[14]来解决非负张量优化问题，然而，非负性约束可能会带来显著的计算负担，收敛速度慢，并使并行算法的发展复杂化，以计算大数据集。Eq.(3)中的INDSCAL模型也不是很好理解，因为它的因式分解是对称的[8]。在本文中，我们提出了两种优化算法。第一个是基于缩放乘法更新规则[14]，记为DrugCom-MU(解略)。
DrugCom-MU的一个已知问题是它的收敛率低。因此，我们进一步开发了一种基于交替方向乘子法(ADMM)的更高效的算法，ADMM是一种分布式优化算法，在大规模任务[15]中表现得非常好。
。。。。

数据库

我们可以构造一个带有3556个正样本的二进制759×759×751张量。现有的关于药物和疾病的知识来自多个在线数据库，包括DrugBank3(药物化学结构)、SIDER4(药物副作用)、OMIM(疾病表型)。
在前人研究[18]、[19]的基础上，我们根据药物的化学结构、药物的副作用、药物靶标谱和药物配体结合位点定义了四种药物-药物的相似性;基于疾病表型、疾病人类表型本体(HPO)术语和疾病本体(DO)的三种疾病疾病相似性。

实验设计

我们将DrugCom和DrugCom- mu与几种最先进的基于张量补全的模型进行比较，包括:(1)CANDECOMP/PARAFAC (CP):一个不考虑药物或疾病的任何辅助信息[20]的基线张量因子分解模型;(2) CMTF:基于矩阵和张量分解[21]耦合的基于梯度的张量补全方法;(3) TFAI:一种通过模内正则化[9]整合辅助信息的张量分析方法;(4) AirCP:另一种利用拉普拉斯正则化[12]集成辅助信息的张量模型;(5)t-BNE:一种采用正交约束和拉普拉斯正则化[11]的对称张量因式分解。
请注意，张量方法CMTF、TFAI、AirCP和t-BNE只能为每个实体包含来自一个数据源的信息，显然不能通过借用其他数据源的信息来估算缺失。必须为每个实体只包含一个数据源，或者以某种方式组合不同的数据源。我们尝试了两种方法:1)使用最少缺失的数据源(药物的化学结构和药物的HPO术语)；2)使用每个实体所有相似矩阵的平均值。使用两种不同方式整合辅助信息的四种模型在性能上没有太大的差异。结果仅显示为四个模型使用单一数据源最少遗漏。
数据的另一个特征是，原始观测张量非常稀疏，含有许多未观测到的元素。毫无疑问，绝大多数这些未被观测到的元素实际上是负样本。为了处理正样本和负样本的不平衡性，我们随机选取相等数量的未观察元素作为负样本。因此我们在实验中使用相同数量的正样本和负样本来评估所有方法的性能。然后随机选取80%的数据实例作为训练数据集，其余20%作为测试数据集，利用精确召回曲线下的面积(AUPR)来评估所有方法的性能。所有模型中潜在因子的维数都设置为30(即R = 30)，以更好地权衡计算成本和精度。对于所有这些方法，正则化参数都是单独使用训练数据进行交叉验证来调整的。对于t-BNE，由于药物或疾病的分类信息未知，参数β和γ均设置为0。拉普拉斯正规化术语既用于药物也用于疾病。对于DrugCom和DrugCom- mu，参数{αi}和{βj}均设置为0.1。实验独立进行了五次，并报告了平均结果。