2018 ACS | Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules

2018 ACS | Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules


本主要是提出了一种将分子的离散表示转换为多维连续表示和从多维连续表示转换的方法。模型过化合物的开放空间生成新分子以进行有效探索和优化。构建三个耦合功能:编码器、解码器和预测器。编码器将分子的离散表示转换为实值连续向量,解码器将这些连续向量转换回离散分子表示。

表示和自动编码器框架


图 1. (a) 用于分子设计的自动编码器示意图,包括联合属性预测模型。从离散的分子表示开始,例如 SMILES 字符串,编码器网络将每个分子转换为潜在空间中的向量,这实际上是一个连续的分子表示。给定潜在空间中的一个点,解码器网络生成一个相应的 SMILES 字符串。多层感知器网络估计与每个分子相关的目标属性的值。(b) 连续潜在空间中基于梯度的优化。在训练一个代理模型f ( z ) 以根据分子的潜在表示z预测分子的属性后,我们可以优化f ( z) 相对于z来找到新的潜在表示,这些表示期望具有较高的所需属性值。然后可以将这些新的潜在表示解码为 SMILES 字符串,此时可以根据经验测试它们的属性。

潜在空间中分子的表示


自动编码器的保真度和潜在空间捕获结构分子特征的能力。图 2a显示了在对训练集之外的一组 5000 个随机选择的 ZINC 分子进行编码时,每个维度的核密度估计。核密度估计显示了数据点沿潜在空间每个维度的分布。尽管每个维度中数据点的分布显示出略微不同的均值和标准偏差,但所有分布都是正态的,如变分正则化器所强制执行的。

图2c 显示了潜在空间中接近布洛芬的一些分子。这些结构变得不太类似于在潜在空间中增加距离。当距离接近训练集中分子的平均距离时,变化更加明显,最终类似于可能从训练集中采样的随机分子。


图 3. 变分自编码器潜在空间的二维 PCA 分析。两个轴是从 PCA 分析中选择的主成分;颜色条显示所选属性的值。第一列显示了使用未经联合属性预测训练的自动编码器对所列数据集中所有分子的表示。第二列显示了使用经过联合属性预测训练的自动编码器的分子表示。第三列显示了用联合属性预测训练的自动编码器的潜在空间中随机点的表示;为这些点预测的属性值是使用属性预测器网络预测的。前三行显示了对来自 ZINC 数据集的 logP、QED 和 SAS 属性的分子进行训练的结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值