IMG2SMI: 将分子图像翻译成SMILES

IMG2SMI: Translating Molecular Structure Images
to Simplified Molecular-input Line-entry System


目录

总结

一、Introduction

二、Method

三、Experiment and Result

四、Conclusion、Future Work and Limitations

参考(更多细节见原文)


总结

        在文献缺乏SMILES的情况下,从文献中的二维图像中生成SMILES对于大规模理解化学文献是必要的。作者提出了IMG2SMI模型,利用RESNET-101进行图像特征提取,利用encoder-decoder生成分子描述。IMG2SMI的Tanimoto相似度比基于OSRA的系统高出163%。此外,作者发布了一个新的分子预测数据集MOCAP,包括8100万个分子,用于分子描述生成。


一、Introduction

        尽管SMILES的分子形式稳健且具有确定性,但在化学文献中却很少发现,因为它们显然不是人类可读的。相反,化学文献关注的是由ChemSketch和ChemDoodle等绘图程序创建的分子及其反应的二维图像。当化学家试图在论文中寻找相关的反应或分子时,他们使用分子绘图程序来重建分子,然后使用这些表示进行搜索。这种方法冗长乏味、容易出错、耗时且难以扩展。因此如果没有精确地从图像中提取分子信息的方法,图像中传递的信息基本上被忽略了。此外,如果没有精确的分子提取,开发大型语料库的方法都可能具有挑战性。

        从化学文献中提取图像信息基本上有两个主要任务:分割和分子预测。分割系统的重点是分割出分子图像。分子预测的重点是提取分割系统的输出,并预测每个给定分子段最可能的分子。

        作者主要贡献总结如下:

  1. 提出了IMG2SMI分子预测模型,为分子图像稳定、准确地提供了分子描述。
  2. 开源了一种新的分子描述生成数据集MOLCAP,该数据集包含8100万个分子。
  3. 对处理SMILES字符串的方法进行了深入的研究,发现SELFIES最适合图像字幕任务。

二、Method

        IMG2SMI是一种图像字幕方法,它依赖于RESNET-101进行特征提取,然后使用Transformer的encoder-decoder架构生成字幕。如图1所示。

         由于缺乏用于实验的大型注释数据集,作者创建了MOLCAP。MOLCAP由8100万SMILES组成,对应8100万分子。为了生成MOLCAP,作者结合了现有化学数据库和各种分子生成实验中的数据集。MOLCAP的独特之处在于,它的分子平均长度更长,更复杂。  随机选择1000,00个分子作为的训练语料库,5000个分子作为评估/验证数据集,使用RDKIT 为每个分子创建256x256的图像,并生成对应标题。

三、Experiment and Result

        从表2的结果中可以看到,IMG2SMI在所有指标上都优于OSRA和DECIMER。特别使用ROUGE时,IMG2SMI取得了几乎10倍的改进。尽管各种指纹识别方法的分子输入有差异,但Transformer encoder能够很好地创建相关的分子描述。值得注意的是,尽管大多数指标都发生了重大变化,但Levenshtein距离仍然保持在21的高水平。这可能是由于IMG2SMI倾向于制作较长的字幕,同时MOLCAP的分子平均长度接近45。

        为了进一步研究IMG2SMI的性能,作者探索分词策略、encoder和decoder的变化如何影响模型性能。如表3所示,decoder的变化具有巨大的影响,因为基于RNN的模型只是略微优于随机分子。Transformer和固定encoder优于所有现有的方法。这是由于特征提取器提供了足够的信息给Transformer,因此可以学习分子的表示形式。这也表明特征提取器能够非常好地表示潜在特征空间中的分子,并可能应用于许多其他任务。

        表4中发现分词策略对分子描述生成有很深的影响。除了SELFIES,其他生成的描述很少是真正有效的分子。作者试图通过利用束搜索来缓解这个问题,但这并没有提高性能。因此作者建议未来的研究人员将精力集中在SELFIES上。并且如果必须使用一些BPE标记化,建议词汇量为2000。

四、Conclusion、Future Work and Limitations

        IMG2SMI利用了计算机视觉、化学AI和自然语言处理方面的进步,构建了一个分子描述符生成模型。值得注意的是,虽然我们的模型优于现有的非神经网络方法,Tanimoto相似度为0.9475,但Exact Match为7.24%。Tanimoto相似度和Exact Match之间的巨大差距表明模型可以继续优化。随着MOLCAP数据集的发布,为文献分析领域提供了一个基准。这个数据集足够大,可以支持预训练、迁移学习和图像增强中需要数据的方法。最后,无论token方法如何,SMILES方法都很难用于不同的数据,而基于SELFIES的方法表现更好。

       未来可以把训练语料库从过去的100万扩充到MOLCAP的8100万,并使用裁剪、旋转、噪声注入等图像增强方法来构建更鲁棒的模型。此外,可以把IMG2SMI与现有的文档分割模型结合起来,生成一个易于使用的端到端化学提取工具。然后将这个工具集成到一个基于网络的扩展中,允许化学研究人员在自动阅读论文时提取分子名称。利用提取的分子视觉特征,能够在其他分子性质预测任务中使用这些特征,如产物预测、性质预测和分子替代。  

       即使是表现最好的IMG2SMI模型在精确匹配、ROUGE和LD方面也存在相当大的差距。IMG2SMI甚至不能在10%的图像上实现完全精确匹配。同样需要注意的是,与传统的图像处理方法不同,基于神经网络的方法在训练分布之外的数据上表现不佳。由于MOLCAP是围绕复杂分子构建的,分子平均长度为> 40,因此该模型不能为较短的分子提供很好的描述。


参考(更多细节见原文)

原文链接:https://doi.org/10.48550/arXiv.2109.04202

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

前世忘语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值