Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

本文提出了一种名为图卷积策略网络(GCPN)的方法,用于通过强化学习和对抗训练生成目标导向的分子图。GCPN结合图表示学习、强化学习和对抗训练,能够在保持化学规则的同时优化特定分子特性。实验结果显示,GCPN在化学性质优化、目标分子生成和约束属性优化等任务上表现出优越性能,与现有基线相比,性能提升了61%至184%。
摘要由CSDN通过智能技术生成


Jiaxuan You

2019年

Abstract

生成新颖的图结构以优化给定的目标,同时遵循一些给定的基本规则,这对于化学,生物学和社会科学研究而言是至关重要的。
分子图生成任务的目的: 是发现具有所需特性(如药物样和合成可及性)的新分子,同时遵守物理定律(如化学价)。然而,设计模型以找到优化所需特性同时结合高度复杂和不可微的规则的分子仍然是一项艰巨的任务。

我们提出Graph Convolutional Policy Network (GCPN),这是一个基于图卷积网络的通用模型,(1)基于通用图卷积网络的模型,用于通过强化学习生成目标导向图。(2)该模型经过训练可以通过策略梯度优化特定领域的奖励和对抗损失,并在包含特定领域规则的环境中运行。实验结果表明,与已知分子类似,GCPN可以在最先进的基线上实现61%的化学性质优化,而在约束性质优化任务上则可以提高184%。

1 Introduction

药物发现和材料科学基于特定的分子结构。药物发现和材料科学中的许多重要问题均基于设计具有特定所需特性的分子结构的原理。 但是,由于化学空间很大,这仍然是一项艰巨的任务。 例如,药物样分子的范围估计在1023和1060之间[32]。 另外,化学空间是离散的,分子特性对分子结构的微小变化高度敏感[21]。

最近,在将深度学习模型应用于分子生成方面取得了重大进展[15、38、7、9、22、4、31、27、34、42]。然而,能够直接优化各种所需的物理,化学和生物学特性指标的新颖有效的分子图的产生仍然是一项艰巨的任务。

1.1 Present Work.

在这项工作中,我们提出了图卷积策略网络(GCPN),这是一种生成分子的方法,在该方法中,可以将生成过程导向特定的所需目标,同时根据基本的化学规则限制输出空间。 为了解决目标导向分子生成的挑战,我们利用并扩展了三个概念,并将它们组合在一个统一的框架中。:

  • 图形表示: 图表示学习用于获取生成图状态的矢量表示
  • 强化学习
  • 对抗训练: 对抗损失用作奖励,以结合示例分子数据集指定的先验知识

整个模型在增强学习框架中进行端到端训练 。

1.2 Graph representation

我们将分子直接表示为分子图,比SMILES (simplified molecular-input line-entry system)[40]更健壮,这是一种基于文本的表示法,在以前的工作中被广泛使用[9,22,4 ,15,38,27,34]。

1.3 Reinforcement learning

与通过数据集学习生成模型相比,用于目标导向分子生成的强化学习方法具有多个优势。

(1) 所需的分子性质(如药物相似性[1,29])和分子限制(如化合价)是复杂且不可微的,因此无法将它们直接纳入图生成模型的目标函数中。 相反,强化学习能够通过环境动力学和奖励功能的设计直接表示硬约束和所需的属性。

(2) 强化学习允许主动探索数据集中样本之外的分子空间。 深度生成模型的替代方法[9,22,4,16]在重建给定分子方面显示出可喜的成果,但其探索能力受到训练数据集的限制。

1.4 Adversarial training

结合示例分子数据集指定的先验知识对于分子生成至关重要。 对抗训练通过使用生成器进行对抗训练的可学习区分器来解决挑战[10]。 训练收敛后,鉴别器隐式合并给定数据集的信息并指导生成器的训练。

GCPN被设计为在化学感知图生成环境中运行的强化学习代理(RL代理)。 通过将新的子结构或原子与现有的分子图相连接或添加键以连接现有的原子来依次构造分子。 GCPN可以预测添加键的作用,并通过策略梯度进行训练以优化由分子特性目标和对抗性损失组成的奖励。 对抗损失由基于图卷积网络[20,5]的鉴别器提供,该鉴别器在示例分子的数据集上共同训练。 总体而言,这种方法可以直接优化特定于应用程序的目标,同时确保生成的分子是现实的并满足化学规则。

我们在与药物发现和材料科学相关的三个不同的分子生成任务中评估GCPN:molecule property optimization, property targeting and conditional property
optimization。 我们使用ZINC数据集[14]为GCPN提供示例分子,并训练策略网络以生成具有高属性得分的分子,具有目标属性得分的预先指定范围的分子或包含特定子结构但具有高性能的分子得分。 在所有任务中,GCPN都能达到最先进的结果。 GCPN生成的分子的性能得分比最佳基准方法高61%,并且在约束优化设置中的平均性能优于基准模型平均184%。

2 Related Work

Yang et al. [42] and Olivecrona et al. [31]提出以分子特性为目标的RNN SMILES,分别使用蒙特卡罗树搜索和策略梯度对其进行了优化。

Guimaraes et al. [27] and Sanchez-Lengeling et al. [34] 进一步包括增强学习奖励的对抗损失,以增强与给定分子数据集的相似性。

Jin et al. [16] 提出使用变分自编码器(VAE)框架,其中分子表示为小原子簇的连接树。 该方法只能在解码为分子之前间接优化学习的潜在嵌入空间中的分子特性,而我们的方法可以直接优化分子图的分子特性。

You et al. [43] ]使用自回归模型来最大化图生成过程的可能性,但是不能用于生成属性图。

Li et al. [25] and Li et al.[26] 所述的顺序图生成模型,其中可以并入条件标记以生成其分子特性接近指定目标分数的分子。 但是,这些方法也不能直接对所需的分子特性进行优化。

3 Proposed Method

3.1 Problem Definition

我们将图 G G G表示为 ( A , E , F ) (A,E,F) (A,E,F),其中

  • A ∈ { 0 , 1 } n × n ) A\in \{ 0,1\}^{n\times n)} A{ 0,1}n×n)是邻接矩阵
  • F ∈ R n × d F \in \mathbb{R}^{n \times d} FRn×d是顶点特征矩阵,每个顶点有 d d d维特征
  • 定义 E ∈ { 0 , 1 } b × n × n E\in \{0,1\}^{b\times n\times n} E{ 0,1}b×n×n为离散边条件相邻向量,假设有 b b b种类型边。
  • 如果顶点 j j j k k k之间有 i i i种类型的边,则 E i , j , k = 1 E_{i,j,k}=1 Ei,j,k=1,且 A = ∑ i = 1 b E i A=\sum^b_{i=1} E_i A=i=1bEi

我们的主要目标是生成最大化给定特性函数 S ( G ) ∈ R S(G)\in \mathbb{R} S(G)R的图,例如最大化 E G ′ [ S ( G ′ ) ] E_{G'}[S(G')] EG[S(G)],其中 G ′ G' G是产生的图, S S S可以是一个或多个感兴趣的特定于域的统计信息。
在这里插入图片描述

3.2 Graph Generation as Markov Decision Process

3.3 Molecule Generation Environment

(1) State Space

(2) Action Space

(3) State Transition Dynamics
特定于域的规则已纳入状态转换动态中。 环境执行符合给定规则的动作。 策略网络提出的不可行操作被拒绝,状态保持不变。 对于分子生成的任务,环境结合了化学规则。 在图1(d)中,两个动作均通过了化合价检查,并且环境根据这些动作更新了(部分)分子。 请注意,与基于文本的表示方式不同,基于图的分子表示法使我们能够执行此逐步的化合价检查,因为即使对于不完整的分子图也可以执行此步骤。

(4) Reward design
中间奖励和最终奖励均用于指导RL代理的行为。 我们将最终奖励定义为特定领域奖励和对抗性奖励的总和。 特定领域的奖励包括最终属性得分(的组合),例如辛醇-水分配系数(logP),药物相似性(QED)[1]和分子量(MW)。 特定领域的奖励还包括根据各种标准对不切实际的分子进行惩罚,例如过度的空间应变和违反ZINC官能团过滤器的官能团的存在[14]。中间奖励包括逐步有效性奖励和对抗性奖励。 如果操作不违反效价规则,则分配少量的正面奖励,否则分配较小的负面奖励。 例如,图1的第二行显示了采取终止操作的情况。 当环境根据终止动作进行更新时,将给出逐步奖励和最终奖励,并且生成过程将终止。

为了确保生成的分子类似于给定的分子集,我们采用了生成对抗网络(GAN)框架[10]来定义对抗性奖励 V ( π θ , D ϕ ) V\left(\pi_{\theta}, D_{\phi}\right) V(πθ,Dϕ)
min ⁡ θ max ⁡ ϕ V ( π θ , D ϕ ) = E x ∼ p d a t a [ log ⁡ D ϕ ( x ) ] + E x ∼ π θ [ log ⁡ D ϕ ( 1 − x ) ] \min _{\theta} \max _{\phi} V\left(\pi_{\theta}, D_{\phi}\right)=\mathbb{E}_{x \sim p_{d a t a}}\left[\log D_{\phi}(x)\right]+\mathbb{E}_{x \sim \pi_{\theta}}\left[\log D_{\phi}(1-x)\right] θminϕmaxV(πθ,Dϕ)=Expdata[logDϕ(x)]+Exπθ[logDϕ(1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值