人工智能辅助药物发现(8)可解释性

AIDD可解释性概述

理论上,几乎所有生物学过程都可以被药物靶向。针对特定疾病的一大挑战是,如何寻找出具有合适药理学,毒理学和药代动力学等特性的类药小分子。目前,依靠AI设计的结果难以被生物学家,药学家,化学家理解。

可解释性药物发现的重点是探索如何解释模型构建的预测结果(符合化学背景,易于医药人员理解),给出药物作用机理解释。主要内容体现为:

  • 模型透明化,清晰阐述模型的计算流程;
  • 明确决策的由来,证明预测结果的置信度;
  • 发掘药物设计和分子发现中的关键信息;
  • 可靠地评估,量化预测结果的不确定性;

可解释性AI

可解释机器学习

一些机器学习本身具有可解释性,比如,树模型,广义加性模型。这些内在可解释的机器学习算法广泛应用于金融,医疗领域。

线性回归是经典的内在可解释机器学习模型,回归系数是自变量与因变量相关性的直接体现,代表了输入特征的重要程度,系数越大表示对应自变量的作用越大,特征越重要。作为一种广义线性模型,逻辑回归是最常用的适用于二分类的模型,其可解释性与线性回归模型相似。

当特征与结果之间的关系是非线性的或者特征之间存在联合作用时,线性回归和逻辑回归将失效。此时决策树发挥作用。决策树能够从一组有特征和标签的数据中总结决策规则并用树结构呈现。对于决策树,根据特征被选中的次数和信息量来衡量特征的重要性,次数越多,信息量越大,该特征越重要。在回归问题中,评估MSE的变化量被用于评估特征重要性。此外,通过可视化决策树可以清晰看到决策路径。

传统机器学习算法虽然具有内在解释性,但难以处理复杂的分析任务。

图结构的XAI

许多复杂数据的本质都是graph,比如社交网络,药靶关系。基于图的算法相比基于序列的算法能够更自然表达这类数据的关联,因此诞生了众多基于graph的神经网络技术,例如图卷积神经网络,图注意力网络,变分图自编码器,异质图注意力网络。

解释图模型的挑战在于:图是非网格数据,每个节点有不同数量的邻居并处于不同的局部拓扑结构中。近期的图解释性研究与特征工程思想相似,旨在回答哪些输入特征更重要,哪些图的模式更有利于决策。它们分为:基于梯度或特征的方法,基于扰动的方法,基于分解的方法,基于代理的方法。

基于梯度或特征的方法

基于梯度或特征是一种直观的解释,其思想是将梯度或隐空间的特征图近似于输入特征的重要性。通常,梯度值或特征图的值越大,意味着输入的特征越重要。代表方法有CAM,Grad-CAM。

基于扰动的方法

基于扰动的方法主要是在具有不同扰动输入的情况下,检测输出结果的变化。当预测结果比原始预测发生较大变化,则表明输入中重要的部分被扰动。扰动的常见方式是对节点,节点的特征,边,以及边的特征进行mask,代表方法有GNNExplainer,PGExplainer,GraphMask。

基于分解的方法

基于分解的方法将原始模型的预测分解为若干项,将预测出的打分分配到输入空间,通过反向传播逐层分配预测得分,直到输入层。通过组合,可以表示边的重要性,节点的重要性,游走路径的重要性,该类方法的代表为LRP,GNN-LRP。

基于代理的方法

基于代理的方法的基本思想是简化输入与输出之间的非线性关系(用简单的代理模型近似复杂的深度网络)。为了获得对给定输入数据预测结果的解释,该类方法需要先对输入数据进行抽样,以获得目标数据周围的关系表示。代表方法有GraphLime。

建模后的可解释技术

对于可解释技术作用的阶段,可以分为内在可解释和建模后可解释(post-hoc)。内在可解释作用于建模过程中,强调模型自身具备可解释性。建模后可解释的主要思路是将深度模型视为黑盒,通过假设和检验去观察模型,从而解释模型的工作方式。post-hoc实现了与AI算法的解耦,是XAI的研究重点

目前的事后解释方法以特征归因法为代表,思想是:具有越高重要性的特征,模型对其依赖程度越高,代表有LIME,SHAP。

LIME使用线性模型对黑盒进行代理,比如对于文本或图像任务,LIME给出模型决策的依据主要源于句子中的哪些单词或图像中的哪些超像素块。SHAP从博弈利益分配角度对参与决策的不同特征进行打分。

知识嵌入的可解释技术

基于知识或规则对模型进行有约束的设计,本身就体现了一种直观的解释思想,属于内在可解释技术

结合生物系统知识的模型具有独特优势,因为生物系统的层次性和复杂性关系适合引入该领域的先验知识去设计模型。

辨析:注意力机制与XAI

在可解释领域,注意力机制能否为模型提供解释已经成为近年来的焦点。目前,注意力机制被用于分析模型的可解释性,因为其功能和狭义可解释定义(哪些输入内容对模型预测是重要的)重合,并且注意力易于可视化,但这种做法也面临质疑,因为部分人认为注意力机制缺乏对可解释性添加约束。随后有人反驳:注意力权重只是提供一个解释,但不保证是唯一的解释。

目前大部分人认为:如果任务简单,注意力机制不能带来性能提升,此时注意力权重的分布是不可预测的,即对XAI贡献微弱;然而当注意力机制可以有效提升模型性能时,注意力本身将能够为基于梯度,基于干扰等方法带来有方向性的辅助参考。

XAI与药物发现

XAI与QSAR

作为一种应用统计方法,QSAR是对药物分子的化学结构与生物活性,毒性间的关系进行定量分析的模型。按照分子结构的维度,可以分为2D QSAR和3D QSAR。机器学习算法可以拟合出精准的QSAR,但不能明确给出回归方程的物理意义以及药物-受体间的作用模式。

目前在QSAR方面的可解释性可以分为以下方面:

  • 基于先验知识的可解释策略;
  • 基于集成学习的可解释策略,集成学习的基分类器采用简单的内在可解释模型;
  • 基于注意力机制的可解释策略,辨识对活性重要程度不同的子结构;

XAI与联合用药

由于长期服用一种药物,人体会出现耐药性,单一药物治疗特定疾病的效果存在局限。因此,联合用药在治疗特定疾病方面得到重视,比如艾滋病,真菌感染,细菌感染。但药物种类繁多,联合用药的组合情况变得更复杂。深度学习技术可以提高联合药物筛选的效率。然而,由于生物知识无法完全指导深度学习模型,联合用药筛选的计算变得缺乏可解释性,这限制了临床应用的置信度。

研究表明,基因相互作用,药靶相互作用,药物相互作用是影响联合用药的重要因素。Decagon方法采用图卷积网络对多模态药物相互作用关系进行建模,准确预测了药物组合的副作用。CellBox采用定义好的具有生物可解释的微分方差,在微分方差中,每个参数代表细胞成分。通过在细胞中给定扰动,微分方差可以给出该扰动如何在有向网络中传播。

XAI与分子属性预测

对于药物发现,分子属性预测是一项基本任务。如果无法解释分子属性预测的分析结果,药物学家很难相信预测算法给出的决策。

将分子表示成图,利用图神经网络进行分子属性预测能够一定程度上兼具预测准确性和可解释性。比如Attentive FP,首先用图表示分子,使用注意力机制有效提取局部特征,以及节点之间的相互作用。注意力机制有助于化学家从数据中挖掘出结构的深层知识。

XAI与药靶相互作用

药靶相互作用预测在药物发现过程中是重要的。药靶相互作用包含药物-靶标关系预测和药物-靶标亲和力预测,分别为分类和回归问题。

目前的可解释性模型主要是通过赋权药物和靶标作用的重要基团来实现。比如DeepAffinity,ML-DTI。

XAI与药物不良反应预测

目前的药物不良反应预测方法在可解释性方面采用以下技术:挖掘用于表示药物分子的关键特征集合,并解释这些特征如何影响药物不良反应。比如MGE-CNN将相应的激活值映射到片段空间,挖掘出与急性口服毒性相关的化学结构。

XAI与新药设计

新药设计领域目前没有可解释性研究,但可以有以下设想:

  • 通过基于XAI的分子属性研究,可以揭示高活性基团与特定属性强关联的子结构,并将其作为先验知识整合到新药设计中;
  • 通过基于XAI的药物-靶标作用预测和药物反应预测,揭示高活性基团或子结构与靶蛋白结合位点的关联关系,整合到新药设计中。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值