2018 Journal of cheminformatics | 基于条件变分自编码器分子生成模型

2018 Journal of cheminformatics | Molecular generative model based on conditional variational autoencoder for de novo molecular design

Paper:https://jcheminf.biomedcentral.com/articles/10.1186/s13321-018-0286-7
Code:https://github.com/jaechanglim/CVAE

基于条件变分自编码器分子生成模型

本论文由Jaechang Lim等人 2018年发表于化学信息学杂志,其主要工作是提出了一种基于条件变分自编码器的分子生成模型,用于从头设计分子。证明它可以用于生成具有五种靶标性质的类药物分子。并且能够在不改变其他属性的情况下调整单个属性。

模型

条件变分自动编码器 (CVAE)

首先,作者阐明 VAE 和 CVAE 之间的区别,它们的目标函数相互比较。VAE 的目标函数由下式给出:

E [ log P ( X ∣ z ) ] − D K L [ Q ( z ∣ X ) ∥ P ( z ) ] , \begin{aligned} E[\text {log}P(X|z)]-D_{KL}[Q(z|X)\parallel P(z)], \end{aligned} E[logP(Xz)]DKL[Q(zX)P(z)],

其中 E E E表示一个期望值, P P P Q Q Q为概率分布,DKL为Kullback-Leibler散度, X X X z z z分别表示数据和潜在空间。第一项和第二项通常分别称为重建误差和 KL 项。CVAE 与 VAE 的一个关键区别在于将条件信息嵌入到 VAE 的目标函数中,从而得到修改后的目标函数如下:

E [ log P ( X ∣ z , c ) ] − D K L [ Q ( z ∣ X , c ) ∥ P ( z ∣ c ) ] , \begin{aligned} E[\text {log}P(X|z,c)]-D_{KL}[Q(z|X,c)\parallel P(z|c)], \end{aligned} E[logP(Xz,c)]DKL[Q(zX,c)P(zc)],

其中c表示条件向量。条件向量c直接参与编码和解码过程。

CVAE 模型与联合训练的 VAE 模型的主要区别在于,分子特性直接合并到编码器和解码器中。两部分组成:

  • 用于目标分子性质,
  • 涉及分子结构和其他性质。

分子表示和模型构建

用 SMILES 代码表示分子,以利用专门处理文本和序列的最先进的深度学习技术。每个 SMILES 代码都被规范化为一个独特的分子表示。

数据

ZINC 数据集,

结果


CVAE 生成的分子,其条件向量由a阿司匹林和b达菲的五个目标特性组成。

由 CVAE 生成的分子,其条件向量由阿司匹林的五个目标特性组成,潜向量由阿司匹林的潜向量稍作修改。图中显示结果,从阿司匹林以这种方式产生的分子。它们看起来与阿司匹林非常相似,并且在 10% 的误差范围内也具有与阿司匹林相似的特性。


比较了从训练集中随机选择的 1000 个分子和 1000 个生成的分子的 LogP 和 TPSA 分布,这些分子的属性值超出了数据集的范围(朝向更大的值)。


目标属性的分布向更大的值移动,导致属性值超出范围的分子比例增加。


从测试集中随机选择的 1000 个分子的潜在向量的两个分量及其 MW、LogP 和 TPSA 值。具有相似性质的分子可能位于联合训练的 VAE 中潜在空间的同一区域周围。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值