确定COVID-19药物再利用机会的网络医学框架

ones~

已于 2023-12-02 21:48:22 修改

阅读量147

点赞数

文章标签：网络

于 2023-11-29 11:47:40 首次发布

原文链接：https://www.pnas.org/doi/abs/10.1073/pnas.2025581118

版权

文章探讨了COVID-19期间如何通过人工智能和网络医学方法快速评估已批准药物对SARS-CoV-2的潜力，通过多种算法和实验验证，提出多模态技术提高了药物预测的准确性和可靠性，发现76%的网络药物不通过传统结合方式识别，为治疗提供新思路。

摘要由CSDN通过智能技术生成

1.摘要

COVID-19大流行凸显了快速可靠地优先考虑临床批准化合物对严重急性呼吸综合征冠状病毒2型（SARS-CoV-2）感染的潜在有效性的需求。在这里，我们部署了依赖人工智能、网络扩散和网络邻近性的算法，任务是对6340种药物根据预期对SARS-CoV-2的有效性进行排名。为了测试预测结果，我们使用在VeroE6细胞中实验筛选的918种药物作为基准，以及临床试验中的药物清单，这些清单捕捉了医学界对具有潜在COVID-19有效性药物的评估。我们发现没有单一的预测算法能在所有数据集和指标上提供始终如一的可靠结果。这一结果促使我们开发了一种多模态技术，融合了所有算法的预测，发现不同预测方法之间的共识一致超过了最佳个体管道的性能。我们在人类细胞中筛选了排名最高的药物，取得了62%的成功率，与非引导筛选的0.8%命中率形成鲜明对比。在减少病毒感染的六种药物中，有四种可以直接重新用于治疗COVID-19，为COVID-19提出了新的治疗方法。我们还发现成功减少病毒感染的77种药物中有76种不与SARS-CoV-2的靶蛋白结合，表明这些网络药物依赖于无法通过对接策略识别的基于网络的机制。这些进展为未来病原体和被新药开发成本和漫长时间线忽视的疾病识别可重复利用的药物提供了一种方法路径。

2.介绍

COVID-19大流行的破坏性本质揭示了迅速开发、测试和部署新药和治疗方法的需求。考虑到紧迫的时间框架，通常需要十年或更长时间的从零开始的药物开发过程是不可行的。一种高效的策略必须依赖于药物重新定位（或重新定位），帮助在临床使用批准的化合物中识别少数可能对COVID-19患者也有治疗效果的化合物。然而，缺乏可靠的重新定位方法导致了一种赢家通吃的模式，其中超过三分之一的注册临床试验集中在羟氯喹或氯喹上，从而分流了测试更广泛的潜在有效药物候选者的资源。虽然全面公正地筛选所有批准的药物可以识别所有可能的治疗方法，但鉴于其高成本、漫长的时间表和极低的成功率（1），我们需要高效的策略来实现有效的药物优先级排序。

药物重新定位算法根据一个或多个信息流对药物进行排序，如分子剖面（2）、化学结构（3）、不良剖面（4）、分子对接（5）、电子健康记录（6）、途径分析（7）、全基因组关联研究（7）和网络扰动（7-15）。然而，通常只有一小部分顶级候选者在实验中得到验证；因此，现有重新定位算法的真实预测能力仍然未知。为了量化和比较它们的真实预测能力，所有算法必须对同一组候选者做出预测，实验验证不仅要关注顶级候选者，就像现在所做的那样，而且要关注独立于其预测排名选择的更广泛的药物列表。

COVID-19大流行既呈现了社会上的迫切需求，也为以前所未有的规模测试药物提供了理由。因此，它提供了一个独特的机会来量化和提高现有预测算法的有效性，同时也识别COVID-19的潜在治疗方法。在这里，我们实施了三种依赖人工智能（AI）（15，16）、网络扩散和网络邻近性的网络医学药物重新定位算法来对6340种药物进行排名，以评估它们对SARS-CoV-2的预期效果。我们实验筛选了918种药物，使我们能够评估现有药物重新定位方法的性能，并使用共识算法提高预测的准确性。最后，我们在人类细胞中筛选了排名最高的药物，识别出六种减少病毒感染的药物，其中四种可以重新用于治疗COVID-19。开发的策略不仅对COVID-19具有重要意义，还可以让我们识别出被忽视疾病的药物重新定位候选者。

为了测试预测的有效性，我们确定了由所有预测管道排名的918种药物，并在实验中筛选出它们，以识别那些能够抑制非人灵长类动物细胞培养中的病毒感染和复制的药物（18）；成功的结果在源自人类的细胞中进一步得到验证。我们还收集了临床试验数据，以捕获医学界对药物候选者的集体评估。我们发现不同数据集和指标的预测能力各不相同，表明在没有事先基准真相的情况下，无法确定信任哪种算法。因此，我们的关键进步是一种多模式集成预测方法，它通过在不同预测方法之间寻求共识，显著提高了预测的准确性和可靠性（15，19）。

3.结果

基于网络的药物重新定位。重新定位策略通常优先考虑那些已被批准用于（其他）疾病的药
物，这些疾病的分子表现与感兴趣的病原体或疾病相似（20）。为了寻找与COVID-19疾病分子机制重叠的疾病，我们首先将实验确定的（21）严重急性呼吸综合征冠状病毒2型（SARS-CoV-2）蛋白的332个宿主蛋白靶点（数据集S1）映射到人类互作组（22-25）（数据集S2），这是由18,508个人类蛋白之间的332,749对结合相互作用组成的集合（SI附录，第1.1节）。我们发现332个病毒靶点中的208个形成了一个大的连通组件（以下称为COVID-19疾病模块）（图2B），表明SARS-CoV-2靶点在同一网络邻近性中聚集（13，20）。接下来，我们使用Svd度量（26）评估了与299种疾病（26）（d）相关的蛋白质与SARS-CoV-2宿主蛋白靶点（v）之间基于网络的重叠情况，发现所有疾病的Svd > 0，意味着COVID-19疾病模块并不直接与任何单一疾病相关的疾病蛋白重叠（SI附录，图S1和S2及数据集S5）。换句话说，潜在的COVID-19治疗方法不能从用于特定疾病的治疗方法库中得到，这支持了一种基于网络的策略，可以识别可重新定位的药物，而不考虑它们已经确立的疾病适应症。

我们实施了三种相互竞争的网络重新定位方法（图1B和SI附录，第2节）。1）基于AI的算法（15，16）将药物蛋白靶点和疾病相关蛋白映射到低维向量空间中，得出四个预测管道（A1至A4），它们依赖于不同的药物-疾病嵌入。2）扩散算法（17）受到扩散状态距离的启发，根据药物蛋白。

图1. 药物重新定位的网络医学框架。（A）研究设计和时间线。在发布宿主-病原体蛋白质相互作用（PPIs）的文章之后（21）（2020年3月23日），我们实施了三种药物重新定位算法，分别依赖于人工智能（AI）（A1至A4）、网络扩散（D1至D5）和邻近性（P1至P3），共同产生了12个预测排名列表（管道，如图B所示）。每个管道在2020年4月15日提供了对不同数量药物的预测，并且这些预测被冻结。然后我们确定了918种药物，所有管道（除了P3）都提供了预测，我们在VeroE6细胞中实验验证了它们对病毒的影响（18）。实验（E918，E74）和临床试验列表C415提供了验证和排名聚合的基准真相。（C）直接靶向药物要么与病毒蛋白（D1）结合，要么与病毒蛋白的宿主蛋白靶点（D2）结合。相比之下，网络药物（D3）与宿主蛋白结合，并通过扰乱宿主细胞亚网络来限制病毒活性。

图2. COVID-19疾病模块。（A）SARS-CoV-2靶向的蛋白质并不是随机分布在人类互作组中，而是形成了一个由208个蛋白质组成的大的连通分量（LCC）和多个小的子图，如图所示。几乎所有SARS-CoV-2 LCC中的蛋白质也在肺组织中表达，这可能解释了病毒导致疾病肺部表现的有效性。（B）LCC大小的随机期望表明，观察到的COVID-19 LCC（其大小由红色箭头指示）大于随机机会所预期的（z分数=1.65）。（C）Kendall τ统计热图显示，不同方法（A、D和P）预测的排名列表之间没有相关性。然而，我们观察到同一预测方法预测的各个排名列表之间有高度的相关性。

图3. 实验结果和网络起源。（A）918种实验验证药物中8种药物的剂量-反应曲线示例（18），说明了四种观察到的结果（S、W、C和N）。VeroE6细胞在体外接受了SARS-CoV-2病毒的挑战，并在一系列剂量下（从8纳摩到8微摩）接受了药物治疗。使用了两步药物反应模型（SI附录，第4.3节）根据不同剂量下的药物反应以及细胞和病毒减少情况，将每种药物分类为S、W、C或N类别。（B）由77种S&W药物靶点在互作组内形成的子网络。链接对应于结合相互作用。紫色蛋白仅由S药物靶向；橙色由W药物靶向；同时被S&W药物靶向的蛋白以饼图显示，比例与每个类别中的目标数量成正比。（C）N药物的靶点对COVID-19模块的邻近性z分数为正，意味着它们比随机预期更远离COVID-19模块。相比之下，S&W药物的靶点比通过改变预期更接近（更近）COVID-19模块，这表明它们靠近COVID-19的位置有助于改变病毒感染细胞的能力。

4.多模态药物重新定位方法

药物重新定位的预测模型受限于有限的实验资源，这限制了下游实验涉及的药物数量（K）。我们如何识别这些K种药物以最大化测试列表的正面结果（19）？由于初始时不知道哪个Np = 12的预测管道提供最佳预测能力，我们可以通过从每个管道中选择前K/Np种药物（联合列表）来平等信任所有管道。我们将这种情况与结合不同管道预测的替代策略进行了比较。一种广泛使用的方法是计算每种药物在Np个管道上的平均排名（29）（平均排名列表）。另一种方法是寻找最大化所有管道之间成对协议数量的共识排名（16，19）。由于最优结果，称为Kemeny共识（29），是NP难以计算的，我们实施了三种启发式排名聚合算法来近似Kemeny共识：Borda计数（30），Dowdall方法（31）和CRank（16）。例如，如果资源允许我们测试K = 120种药物，我们问哪个排名列表在120时提供最佳精度和召回率：来自12个管道前10个预测的联合列表；平均排名、Borda、Dowdall或CRank的前120个预测；或者由单个管道排名的前120种药物。我们发现平均排名提供最差的性能，落后于大多数单个管道的预测能力（图4 G和H）。联合列表和Dowdall提供了更好的结果，但落后于表现最佳的个别管道（E918，CT415）。Borda对E918有很强的预测性能，但对CT415不是。相反，依赖于贝叶斯因素的CRank为所有数据集和大多数K值提供了一致高的预测性能。CRank对另外两个数据集的表现也同样出色：一个手动策划的前瞻性列表E74（在讨论中描述）和2020年6月15日更新的临床试验列表C615（SI附录，图S8）。换句话说，我们发现CRank提取了所有方法的累积预测能力，在所有数据集中匹配或超过单个管道的预测能力，代表我们的第二个关键结果。它的持续性能表明，无监督的多模态方法可以显著提高个别预测算法的命中率。这也表明，在没有基准真相的情况下，寻求在单个管道之间具有最小成对分歧的Kemeny共识代表了一种有效且理论上原则的策略，当每个管道都携带一些预测能力时。

在人类细胞系中的确认。在CRank排名的200种药物中，有13种在VeroE6细胞中显示出积极的结果，这代表了有希望的药物候选者，需要在人类细胞中进一步测试以确认它们的临床相关性。由于氯喹和羟氯喹在文献中被反复测试，我们在Huh7细胞中实验测试了剩余的11种药物，在从25微摩到100纳摩的九点稀释系列中。在测试的11种化合物中，奥拉诺芬、阿泽拉斯汀、地高辛和长春碱显示出非常强的抗SARS-CoV-2反应；氟伐他汀显示出较弱的反应；而甲氨蝶呤仅在最高浓度下有效。总体而言，我们发现这11种药物中的6种显示出治疗SARS-CoV2感染的潜力（SI附录，图S6和S7）。

检查CRank列表和实验结果，我们发现了三种排名较高且效果强但尚未进行临床试验的药物（表2）：阿泽拉斯汀（CRank #10，S），一种用于治疗过敏性上呼吸道症状的抗组胺药；地高辛（CRank #33，S），用于治疗心力衰竭和心房颤动。特别是奥拉诺芬（CRank #118，S），用于治疗类风湿性关节炎，还被证明可以通过改变细胞氧化还原状态（32）减少几种微生物感染，并用于治疗哮喘，在人类细胞中以临床相关浓度显示出异常强的反应。我们的发现，加上它们在临床社区中广泛使用的经验，为它们在临床试验中的考虑提供了理由。其他排名较高的候选药物包括甲氨蝶呤（CRank #32，S），它损害叶酸代谢并减弱自身免疫疾病中的宿主炎症反应。这种后一种机制表明甲氨蝶呤可能在疾病谱的另一端有效（即面对对感染的强烈超免疫反应）。

网络效应。大多数基于计算的药物重新定位方法依赖于对接模式，因此仅限于那些与病毒蛋白或病毒蛋白的宿主靶点结合的化合物（21）（见图1C）。一个很好的例子是瑞德西韦，这是一种直接作用的抗病毒药，能抑制病毒RNA聚合酶（33，34）。相比之下，我们的管道还可以识别那些靶向宿主蛋白以引起基于网络的扰动的药物，其中一些可能会改变病毒进入细胞或在其内复制的能力。在完整的宿主体内，这些药物也可能通过其他机制发挥作用[例如像地塞米松这样的皮质类固醇的抗炎作用（35）]，这只能在动物模型或人类试验中进行评估。

我们发现，在77种S&W药物中，只有一种药物已知直接靶向病毒蛋白结合靶标：阿米替林，它靶向SIGMAR1，这是NSP6 SARS-CoV-2蛋白的靶标。换句话说，我们实验筛选中显示有效的77种药物中有76种是“网络药物”，它们通过扰乱宿主亚细胞网络发挥效果，这是我们的第三个关键发现。实际上，由于网络药物不靶向病毒蛋白或它们的宿主靶点，它们无法通过传统的基于结合的方法被识别；然而，它们通过基于网络的方法成功地被优先考虑。

综合而言，我们的分析表明，S&W药物具有多样性，缺乏可以区分它们的基于通路或机制的特征标志。然而，我们确实发现S&W药物靶向的是相同的互作组邻域，位于COVID-19疾病模块的网络附近，这可能解释了它们对宿主细胞的病毒影响的能力，以及基于网络的方法识别它们的有效性。