文章目录
Abstract
预测多药的效果是一项艰巨的任务,每年花费大量金钱来弥补多药带来的负面药物相互作用的影响。 但是,与传统方法相比,机器学习可用于给出更准确的预测。 在本文中,我们概述了将机器学习应用于多药的当前方法。 我们严格定义了理论上的多药问题,并设计了一个图卷积网络,可以学习对问题进行强有力的建模。 我们讨论了它的性能,并提供了进一步的步骤来推广该模型,以便更好地了解多药领域以及机器学习对其进行改进的潜力。
Nomenclature(专业术语)
简写 | 全称 |
---|---|
AI | Artificial Intelligence |
DL | Deep Learning |
DNN | Deep Neural Network |
GCN | Graph Convolutional Network |
ML | machine Learning |
1. Introduction
多药是指同时使用多种药物来治疗单一疾病或病症。通常,同时使用五种或更多药物被视为多药。由于任何一种药物都会与人体发生复杂的相互作用,因此开发出一种批准用于人类的单一药物的过程十分艰巨。将一种药物从概念推向市场的成本估计为13亿美元,批准率约为千分之一。当同时使用多种药物来治疗某种疾病时,这些药物之间的相互作用很可能会产生副作用,其结果可能会严重损害人的健康。每年,仅美国就花费300亿至1800亿美元来解决由多药引起的问题。这些副作用通常比单一药物引起的副作用更难识别。由于对药物与所有上市药物的相互作用进行严格测试是不可行的,因此资源限制进一步加剧了这个问题。因此,有许多工作要做以改善多药实践。
促进多药发展的一种方法是通过应用机器学习(ML)。ML是让人工智能(AI)学习执行任务而无需提供明确指示的过程。取而代之的是,ML流程使用大量数据来识别模式并根据它们进行推断。例如,根据过去20年的纽约天气数据,ML流程可以学习预测明天的纽约天气。但是,由于未提供ML流程的明确指示,因此必须自行确定最佳指标来预测天气,例如前一天的天气。起初,就像一个孩子一样,机器学习过程不会比天真的猜测更好。为了变得更加聪明,机器学习过程必须像人类一样实践。也就是说,机器学习过程需要做出预测,看看它是对还是错,从中学习并在下一次给出更好的预测。但是,每天预测一次天气并不是最快的学习方法。ML流程无需告诉ML流程来预测纽约明天的天气,然后等待一天以查看其天气预报是否正确,而是可以选择过去的日期,隐藏自身的实际答案,然后尝试预测日期的天气基于之前的天气数据。经过足够的练习,通过反复试验,它将学会根据良好的指标做出预测,例如过去几年的当天天气,当天的天气情况以及纽约天气的历史趋势。通过这一训练,测试和从大量准确数据中的反馈中学习的过程,机器学习过程可以快速发展针对特定问题的专业知识,并像人类一样做出预测。
由于存在大量的历史悠久的多药数据,而且每种药物的特性通常都已广为人知,因此多药将从ML中受益匪浅。即,使用有关药物的历史数据; 它们与人体中特定疾病,病症和蛋白质的相互作用; 与其他药物的任何相互作用; 可以训练ML来预测多药中发生的复杂相互作用。ML可以协助多药进行的一些任务如下:
- 识别药物之间存在问题的相互作用
- 强化先前在多药中的发现
- 提供确定一组药物风险的快速实现的方法
- 在多药中发现新的有利的药物相互作用
这些好处的结果如下:
- 降低多药的相关成本,包括死亡率和经济资源
- 增进我们对多药领域的了解
- 集中和组成多药的大量知识
因此,本研究的动机是协助改善ML的多药。在本文中,我们概述了使用ML改进多药的当前方法,为多药数据集提出了理论模型,并创建了图卷积网络(GCN)模型来对数据集进行训练。数据是从低维(潜在)空间生成的,但是只能在高维(观测)空间中观察到。这意味着数据实际上依赖于少数因素,但是被人为拉伸以似乎依赖于许多因素。GCN仅看到数据的观察空间,并学会对数据集进行准确的预测。数据集虽然简单,但却是重要的。我们将详细介绍并讨论通过在GCN上模拟理论,简单但重要的多药数据集获得的知识。
1.1 Current Methods of ML for Polypharmacy
ML应用于多药的主要子领域是深度学习(DL)。DL是ML的子集,它受到人类思维和学习方式的启发。DL模型通常基于大脑本身的结构和功能。DL适用于图像分类,结果预测,自然语言处理(NLP)和人类日常执行的许多其他操作。深度神经网络(DNN)是DL的一个子区域,它代表了将人脑模仿为ML网络的概念。DNN当前是在多药领域中使用的一种流行的ML模型。就像我们将看到的那样,DNN具有对多药非常有用的属性。
人脑中有许多相互连接的细胞,称为神经元。这些神经元之间的关系可以认为是一个非常复杂的有向图,其中每个节点都是一个神经元。神经元 N N N从具有指向 N N N的定向边缘的神经元接收冲动; 并且,根据脉冲的强度, N N N可以激活脉冲并将其发送到其定向边指向的神经元,然后可以激活其他神经元,从而引起级联效应(cascade effect)。神经元图也有许多源和宿神经元(sink neurons)。例如,如果某个物体在膝盖下方与人的腿碰撞,则会引起物理感觉,从而触发源神经元向与其连接的神经元发送脉冲。最终,这些脉冲将达到足够的级联,以使这些脉冲到达负责控制大腿肌肉的神经元。这种冲动会导致腿部肌肉收缩,使人的膝盖自动踢出。这就是人类反应的方式。根据神经元图(神经网络)的设置方式,某些刺激可以确定性地引起某些反应,例如反射。
Figure 1.1: 一个神经元从其他神经元接收电信号。神经元将根据每个脉冲的强度以及神经元如何评估每个传入信号,向其传出神经元发送信号。
这种神经网络模型还具有从反复试验中学习的能力。为此,神经元可以独立地评估其传入连接的冲动。 一个传入神经元的冲动的价值可能是另一个神经元的一半。当重复执行动作时,基于反馈,一个神经元对某个神经元的冲动反应可能会越来越少,而对另一个神经元的冲动反应会越来越多。例如,当一个人尝试一项任务并将其正确执行时,该人会感到高兴。这种幸福感可以反馈到神经网络。 因此,与任务有关的神经元将开始重视传入的冲动,从而更多地产生积极的反馈。当这个人做错任务时,就会出现相反的情况。最终,神经元将确定哪些传入的脉冲产生最佳结果。这就是开发肌肉记忆的方式。当然,神经科学领域还有很多,但这足以解释DNN的基本原理。
由于神经网络能够根据某些输入确定性地计算输出并能够从试验和错误中学习,因此毫不奇怪,它是一种强大的计算模型,可实现人类智能。幸运的是,它也是一个可以被计算机大致捕获的计算模型。
1.2 Deep Neural Networks
如前所述,神经网络可以在计算机科学中建模为由数千个,数百万个或更紧密连接的节点组成的有向图,其中每个节点都是一个神经元。这些节点被组织成具有单向数据流的层。整个网络中可以有源节点和宿节点。 但是,通常在网络的起始处只有一个输入层,而在末端则只有一个输出层。中间的层称为隐藏层,它们执行计算。接收到输入后,取决于强度,相应的源节点将以以数字形式测量的强度(通常为0到1)激活。然后,源节点将此编号发送到其每个传出连接。对于非源节点 N N N, N N N的每个传入连接都被分配了“权重”;某些传入连接比其他传入连接重要得多,因此权重更高。节点将通过传入连接发送的数字作为传入连接激活的“强度”,并将其乘以分配给该连接的权重。如果有多个已激活的传入连接,则将对每个值进行加权,然后求和。然后,该节点会将这个数字缩放到0到1的范围,其中1表示激活尽可能强,并将该数字发送到它的每个传出连接。它在整个网络中传播,并最终到达接收器节点,在此生成输出。对于神经网络,可以有很多输入。回到前面的机器学习示例,对神经网络的一个输入可能是前一天是否下雨。 另一个输入可能是前一周的平均温度; 等等。输出可能是今天是否下雨以及平均温度是多少。
神经网络由权重控制,权重以数字表示,权重是基于反馈确定的。但是,一开始,神经网络没有反馈,因此一无所知。与人脑拥有数百万年的反馈并从一个经过良好调整的网络开始时不同,神经网络会在瞬间出现,并且必须学会在短时间内解决复杂的问题。为了解决这个问题,神经网络中的所有节点最初都接收随机连接权重。因此,网络不会比开始时随机猜测更好。但是,这种初始化方案使网络可以快速从每个节点的反馈中识别每个节点在早期的帮助程度。例如,如果一个节点的入站连接权重初始化为.999,但始终错误地给出了答案,则它可能会降低该权重并增加其其他入站连接的权重。最终,网络将开始始终如一地提供正确的输出,并着手加强到目前为止所学到的知识。
DNN只是具有多个隐藏层的神经网络。 DNN中的更多层可以为更复杂的问题建模。 但是,太多的层会导致网络学习缓慢,因为它在调整自身时会考虑太多因素。 这种折衷是ML中常见的平衡行为。 例如,此问题还影响每个隐藏层中节点数的选择。
机器学习的学习分为两个交替的阶段:训练和测试。 这两个阶段都为DNN提供了一组输入,并评估了网络的性能。 在训练期间,网络会根据来自其预测尝试的反馈来调整其值; 这是学习的地方。 与训练不同,测试不会向网络提供反馈。 相反,测试仅用于评估网络的性能。为了正确评估网络的性能,测试必须无偏见,这一点很重要。 为了完成无偏测试,训练和测试数据集必须互斥。 因此,网络在其训练阶段将永远看不到测试数据。 因此,网络将永远不会收到测试集中任何数据的反馈。因此,测试结果是公正的,可以很好地表明网络对所解决问题的实际掌握。 但是,这代表了另一种平衡行为:由于网络仅从其训练阶段接收反馈,因此它可能会简单地学会为与训练数据类似的输入给出正确的答案。因此,当它找到相同问题的陌生数据时,将做出错误的预测。 这称为过度拟合。 进行预测时,过高的训练精度会降低测试的准确性,这表明过拟合。另一方面,网络可能正在学习普遍的问题,但总体上做得并不好。 这称为欠拟合。 进行预测时,训练不足和测试准确性低均表示拟合不足。重要的是要注意,具有低训练精度和高测试精度的可能性非常小,因为网络专门适合于训练数据。 DNN的参数很多,可能导致过拟合和欠拟合。 仅举几例:隐藏层的数量,每个隐藏层中的节点数量,每个节点的激活功能以及学习信息随机丢失的发生率(以防止过度拟合)。
GCN是DNN的一种特定类型。 到目前为止,所介绍的内容足以引入GCN。
2. Relation works
正如T. Kipf和M. Welling首次提出的,图卷积网络(GCN)特别是一种DNN,它学习可以用图建模的问题。计算机科学关心的许多问题都可以通过图形来建模,包括社交网络,万维网,以及我们研究特别感兴趣的多药中的蛋白质相互作用。例如,在社交网络中,每个人都可以表示为图中的节点。如果两个人是共同的朋友,则他们之间存在无向的优势。给定一个不完整的社交网络图,GCN可以学习预测两个人是否将成为彼此的朋友,从而完成该图。它可以通过观察图中的趋势来学习这样做。例如,如果一个人A与一个人B有很多共同的朋友,则从统计上讲,A和B也有可能是朋友。此外,有关每个节点的外部信息(称为特征)可以支持GCN。例如,在社交网络中,如果网络中的每个人都进行了性格测试,那么GCN可能会观察到性格非常相似的人往往更是共同的朋友。将节点之间的可观察边缘与有关每个节点的特征信息相结合,GCN可以学会有效地预测图中的事物,例如缺失边缘。由于多药数据集通常是大型的复杂图,因此GCN是建模这些问题的极佳选择。
近来,人们对将ML应用于多药的前景进行了大量研究。 这项研究的重点是为将GCN等ML技术应用于多药奠定基础。总体而言,GCN引起了极大的兴趣,成为一个研究主题,重点是提高GCN的可扩展性和功能,并基于GCN创建新的ML模型。某些研究,例如创建基于注意力机制的GCN,可能会在将来应用于此研究。
2.1 Graph Convolutional Networks
GCN将图的数据表示形式(通常是邻接矩阵)和特征矩阵作为输入。“特征”是图中每个节点的属性,并表示为数字。例如,形成社交网络的一群人中的特征可以是每个人的耐心程度的量度。 特征矩阵是二维的。特征矩阵中的每一行都是对应于图中一个节点的特征向量,是每个节点特征的度量。特征矩阵中的每一列都对应于某个特征,我们认为这对于我们的网络了解节点和图很有用。因此,在给定行和列的情况下,要素矩阵中的位置是一个要素值,它代表特定节点与特定属性之间的关系,我们认为该属性以数字的形式对网络有用。例如,在Myers-Briggs类型指标测试中,研究了四个人格特质(特征):
- 外向与内向
- 感知与直觉
- 思考与感觉
- 判断与感知
我们可以以0到1的密集比例来表示这四个特征中的每一个,其中a0表示该人强烈展现出左性格,a1表示该人强烈展现出右性格,a.5表示该人展现出两种性格特质适度。如果我们假设我们有一个由四个人组成的社交网络,那么在性格测试后,四个人中的每个人都会有四个特征值,在特征矩阵中包含四个特征向量:
( 1 0 . 5 . 75 . 6 . 9 . 72 . 54 0 . 63 . 5 0 . 8 . 6 . 1 1 ) \left(\begin{array}{cccc}{1} & {0} & {.5} & {.75} \\ {.6} & {.9} & {.72} & {.54} \\ {0} & {.63} & {.5} & {0} \\ {.8} & {.6} & {.1} & {1}\end{array}\right) ⎝⎜⎜⎛1.60.80.9.63.6.5.72.5.1.75.5401⎠⎟⎟⎞
第一行是人物A的特征向量。 它表明人A内向,感知,有适度的感觉和思考以及相当的感知力。
然后,让我们假设以下是描述这四个人的社交网络的邻接矩阵:<