摘要:
本文作者开发了一种用于从头设计药物的深度学习方法ReleaSE(Reinforcement Learning for Structural Evolution)。ReleaSE分别单独训练了两个深度神经网络,作用分别是生成和预测,整合在一起,用于生成新型目标化学分子,并且仅使用化学分子的SMILES字符串作为输入和输出。
生成模型类似于actor,结合了堆栈增强的记忆网络(stack-augmented memory network)产生化学上可使用的SMILES字符串,即产生新的化学分子;预测模型则类似于一个评论家(critic),从生成的分子中获得预期的性质,并对其奖励/处罚(reward/penalty),实现具有目标性质化学物质的从头设计的预测。
第一阶段中,生成和预测模型先通过监督学习算法单独训练,第二阶段中,两个模型联合在一起,结合强化学习(RL)方法训练,以获得具有预期物化/生物性质的分子,一起训练时,生成模型在最大化reward函数的背景下训练。
概念(模型)验证阶段,使用ReLeaSE方法设计了化学文库,包括结构复杂性或具有最大、最小或特定物理性质范围的化合物,如熔点或疏水性,或对Janus蛋白激酶2具有抑制活性的化合物。
1 Introduction
(摘要中对方法的阐释比较详细了,Introduction更倾向于讨论提出该方法的过程)
2 Results
ReleaSE方法包括两个深度神经网络(图1),这里分别称为G模型(Generative)和P模型(Predictive)。
图A和B是G模型(actor)的训练及生成过程。图A:Generative stack-RNN的训练步骤,图B:Generatve stack-RNN的生成步骤。生成模型的输入是来自SMILES数据集字符串的一个字母,输出给定前缀(prefix)的下一个字母的概率向量,参数的优化通过最小化交叉熵(cross-entropy)损失函数实现。经的随机采样产生。
In the generator regime(没看懂regime,这里先摆个原文), the input token is a previously generated character.
图C和图D分别是总流程以及P模型(critic)的流程。图D:P模型将一个SMILES字符串作为输入,将化学分子性质作为一个数字输出,参数优化使用-平方损失函数最小化。
注意:rewards是由P模型数值化的化学分子性质的函数,G模型训练目标是最大化预期rewards。
2.1 RL formulation as applied to chemical library design
本章介绍如何使用