论文详解-MolGPT: Molecular Generation Using a Transformer-Decoder Model

在这里插入图片描述
本篇文章来自2021年10月发表在Journal of Chemical Information And Modeling上的MolGPT: Molecular Generation Using a Transformer-Decoder Model。文章提出了一个来预测分子生成的SMILES标记序列。该模型利用了掩蔽的自我注意机制,使学习字符串标记之间的长期依赖关系变得更简单。这对于学习满足配价和环闭包的有效字符串的语义特别有用。此外,该模型学习更高层次的化学表示通过分子性质控制。MolGPT能够生成属性值与用户传递的精确值仅略有偏差的分子。它还能够生成包含用户指定支架的分子,同时控制这些特性。

1

研究背景
据推测,潜在类药物候选分子的总数在1023到1060个分子之间,其中只有约108个分子已经合成。2由于难以筛选实际无限的化学空间,且合成分子和潜在分子之间存在巨大差异,因此生成模型用于模拟分子分布,以对具有理想性质的分子进行取样。此类模型学习大量分子的概率分布,因此能够通过从这些分布中取样生成新分子。生成性预训练变换器模型(GPT),GPT模型可以开发更好的语言嵌入,从而模拟更长距离的连接。因此,当用于多种语言建模任务(如自然语言推理、问答、句子相似性和分类)时,嵌入显示出最佳性能。为了获得这种结构的额外好处,作者训练了一个名为MolGPT的GPT模型来预测分子生成的SMILES标记序列。

2

数据集
在这项工作中,作者使用了两个基准数据集,MOSES和GuacaMol,来训练和评估模型。
(1)MOSES:来自Zinc数据集190万clean lead-like分子,分子量范围为250至350 Da,可旋转键数低于7,XlogP低于3.5。
(2)GuacaMol:ChEMBL 数据库的子集,包含160万分子。MOSES数据集主要用于表示类药性分子,因此具有理想药物性质的分子分布。然而,为了测试模型对条件生成的控制,我们更喜欢GuacaMol数据集中可用属性值的较大分布,如图1所示。
对模型进行训练,以了解分子的一些性质,以便控制生成和优化。使用的属性如下:
(1)logP:分配系数的对数。分配系数比较平衡时溶质在两种不互溶溶剂中的溶解度。如果其中一种溶剂是水,另一种是非极性溶剂,那么logP是疏水性的量度。
(2)SAS:合成化合物难度的度量。这是一个介于1(容易做出)和10(非常难做出)之间的分数。
(3)TPSA:拓扑极性表面积&#x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值