背景与综述
1 Present study
重要观察结果
- 一起服用的两种药物,他们针对的蛋白质会比随机组合的药物针对的蛋白质有更多的重叠。(这一点告诉我们 药物-蛋白质 的关系包含着我们建模需要的很重要的信息)
- 为了能够更好地为药物副作用建模,考虑一个蛋白质-蛋白质的映射关系是很重要的
模型特点
- 端到端(新的图自编码器)
- 可预测边的类型
2 Datasets
模型介绍
我们把药物相互作用确定问题,抽象为了一个 由两种节点(药物、蛋白质)组成的,共计两层的多道网络的多链接预测问题)
- 蛋白质-蛋白质网络描述蛋白质之间的网络
- 药物-药物网络包含964个不同边(每种边代表 一种副作用),描述了药物间都有哪种副作用
蛋白质-蛋白质、药物-蛋白质反应
- PPI:Menche et al. (2015) and Chatr-Aryamontri et al. (2015), integrated with additional PPI information from Szklarczyk et al.(2017), and Rolland et al. (2014).
网络是无权重、无向网络,共包含19085个蛋白质和719402个物理反应 - DPI:STITCH 数据库,这里只研究了 已经过验证的小型化学物质(drugs)和目标蛋白质的反应,共包含了8934种蛋白质、519022种化学物质和他们之间的8083600种化学反应
- SIDER (Side Effect Resource) database,包含了1556种药物、5856种副作用、和286399个可能出现的副作用(这里的数据来源于药物的标签)
OFFSIDES database,包含了1332种药物、10097种副作用间的487530种药物关联(这个数据是从 医生、患者、药物公司收集到的) - TWOSIDES 数据库,包含了63473个药物组合中出现的1318种副作用,这其中,恶心、低血压出现在了超过三分之一的药物组合中,而其他副作用像遗忘症、肌肉痉挛,仅仅出现在很少的药物组合中。
一共有4651131种药物组合 与副作用的关系
经过去除副作用的同义词的预处理后,平均每个药物有159个副作用与其相连,最常出现的副作用有 恶心、呕吐、头痛、腹泻、皮炎
研究中仅考虑出现在超过500个药物组合的964种副作用(忽略了那些非常罕见的副作用)
3 Decagon的数据驱动
这里描述三个非常重要的观察,这些观察对Decagon的设计至关重要
副作用的出现频率跨度很大
- 多于 53% 的副作用仅仅出现在 小于 3%的 药物组合中
- 最常出现的副作用(如呕吐、增重、恶心)出现的频次非常大
由于每一个副作用 所关联的 药物组合出现的次数 跨度很大,只存在有限数量的药物组合可供 预测不同边类型的独立训练模型,所以,药物相互作用预测成了一个非常有挑战的课题,尤其是预测那些鲜有出现的副作用,由此可知,要构造一个 信息可共享、可从所有副作用中马上学习的端对端模型非常重要
这里不是很理解:为什么频率跨度大导致只有有限的数据可用,然后为什么有限可用数据就要求一个 信息可共享、马上学习的端对端的模型
副作用在 药物组合间的出现并不独立
由此,我们知道,多副作用上的聚集建模会对预测任务带来帮助
为了量化副作用间的 同时出现 现象,我们统计了一个给定副作用与其他副作用同时出现时 的 药物组合数量,然后使用 随机的“同时出现”来作为null 模型进行置换检验(permutation testing)
其中,高血压和恶心的样例如下:
我们发现: 最常见的副作用中,大部分要不是被过度代表(overrepresented),就是被过度忽略了(underrepresented)
这个发现指出了一种特殊机制的存在,这种机制可能会 contribute to 副作用间共享信息的传递,这和疾病中的共病性(comorbidity)很相似。
例如:
高血压和兴奋症 同时出现的 频次要比 和 发热 同时出现的频次高很多,这样的关系在整个数据集中都存在
我们得出结果:
一个预测模型应该权衡 副作用间的 独立性 并且应该能够复用从一个分子结构中学习到的知识 从而 更好的理解另一个分子结构
药物组合所作用的蛋白质间的关系
得到以下观察结果:
- 超过 68% 的药物组合没有重叠的 目标蛋白质
- 随机药物组合 会有更多的 没有重叠 现象
- 这种现象不是对所有 副作用都适用
基于以上发现,我们得出结论,在模型中考虑蛋白质如何反应 与 对非直接的 反应建模 都是很重要的