IMG2SMI: 将分子图像翻译成SMILES

前世忘语

已于 2022-09-19 16:33:26 修改

阅读量1.1k

点赞数

文章标签：人工智能深度学习自然语言处理

于 2022-09-19 15:11:03 首次发布

本文链接：https://blog.csdn.net/qq_45331246/article/details/126931802

版权

IMG2SMI: Translating Molecular Structure Images
to Simplified Molecular-input Line-entry System

总结

一、Introduction

二、Method

三、Experiment and Result

四、Conclusion、Future Work and Limitations

参考（更多细节见原文）

总结

在文献缺乏SMILES的情况下，从文献中的二维图像中生成SMILES对于大规模理解化学文献是必要的。作者提出了IMG2SMI模型，利用RESNET-101进行图像特征提取，利用encoder-decoder生成分子描述。IMG2SMI的Tanimoto相似度比基于OSRA的系统高出163%。此外，作者发布了一个新的分子预测数据集MOCAP，包括8100万个分子，用于分子描述生成。

一、Introduction

尽管SMILES的分子形式稳健且具有确定性，但在化学文献中却很少发现，因为它们显然不是人类可读的。相反，化学文献关注的是由ChemSketch和ChemDoodle等绘图程序创建的分子及其反应的二维图像。当化学家试图在论文中寻找相关的反应或分子时，他们使用分子绘图程序来重建分子，然后使用这些表示进行搜索。这种方法冗长乏味、容易出错、耗时且难以扩展。因此如果没有精确地从图像中提取分子信息的方法，图像中传递的信息基本上被忽略了。此外，如果没有精确的分子提取，开发大型语料库的方法都可能具有挑战性。

从化学文献中提取图像信息基本上有两个主要任务：分割和分子预测。分割系统的重点是分割出分子图像。分子预测的重点是提取分割系统的输出，并预测每个给定分子段最可能的分子。

作者主要贡献总结如下：

提出了IMG2SMI分子预测模型，为分子图像稳定、准确地提供了分子描述。
开源了一种新的分子描述生成数据集MOLCAP，该数据集包含8100万个分子。
对处理SMILES字符串的方法进行了深入的研究，发现SELFIES最适合图像字幕任务。

二、Method

IMG2SMI是一种图像字幕方法，它依赖于RESNET-101进行特征提取，然后使用Transformer的encoder-decoder架构生成字幕。如图1所示。

由于缺乏用于实验的大型注释数据集，作者创建了MOLCAP。MOLCAP由8100万SMILES组成，对应8100万分子。为了生成MOLCAP，作者结合了现有化学数据库和各种分子生成实验中的数据集。MOLCAP的独特之处在于，它的分子平均长度更长，更复杂。随机选择1000,00个分子作为的训练语料库，5000个分子作为评估/验证数据集，使用RDKIT 为每个分子创建256x256的图像，并生成对应标题。

三、Experiment and Result

从表2的结果中可以看到，IMG2SMI在所有指标上都优于OSRA和DECIMER。特别使用ROUGE时，IMG2SMI取得了几乎10倍的改进。尽管各种指纹识别方法的分子输入有差异，但Transformer encoder能够很好地创建相关的分子描述。值得注意的是，尽管大多数指标都发生了重大变化，但Levenshtein距离仍然保持在21的高水平。这可能是由于IMG2SMI倾向于制作较长的字幕，同时MOLCAP的分子平均长度接近45。

为了进一步研究IMG2SMI的性能，作者探索分词策略、encoder和decoder的变化如何影响模型性能。如表3所示，decoder的变化具有巨大的影响，因为基于RNN的模型只是略微优于随机分子。Transformer和固定encoder优于所有现有的方法。这是由于特征提取器提供了足够的信息给Transformer，因此可以学习分子的表示形式。这也表明特征提取器能够非常好地表示潜在特征空间中的分子，并可能应用于许多其他任务。

表4中发现分词策略对分子描述生成有很深的影响。除了SELFIES，其他生成的描述很少是真正有效的分子。作者试图通过利用束搜索来缓解这个问题，但这并没有提高性能。因此作者建议未来的研究人员将精力集中在SELFIES上。并且如果必须使用一些BPE标记化，建议词汇量为2000。

四、Conclusion、Future Work and Limitations

IMG2SMI利用了计算机视觉、化学AI和自然语言处理方面的进步，构建了一个分子描述符生成模型。值得注意的是，虽然我们的模型优于现有的非神经网络方法，Tanimoto相似度为0.9475，但Exact Match为7.24%。Tanimoto相似度和Exact Match之间的巨大差距表明模型可以继续优化。随着MOLCAP数据集的发布，为文献分析领域提供了一个基准。这个数据集足够大，可以支持预训练、迁移学习和图像增强中需要数据的方法。最后，无论token方法如何，SMILES方法都很难用于不同的数据，而基于SELFIES的方法表现更好。

未来可以把训练语料库从过去的100万扩充到MOLCAP的8100万，并使用裁剪、旋转、噪声注入等图像增强方法来构建更鲁棒的模型。此外，可以把IMG2SMI与现有的文档分割模型结合起来，生成一个易于使用的端到端化学提取工具。然后将这个工具集成到一个基于网络的扩展中，允许化学研究人员在自动阅读论文时提取分子名称。利用提取的分子视觉特征，能够在其他分子性质预测任务中使用这些特征，如产物预测、性质预测和分子替代。

即使是表现最好的IMG2SMI模型在精确匹配、ROUGE和LD方面也存在相当大的差距。IMG2SMI甚至不能在10%的图像上实现完全精确匹配。同样需要注意的是，与传统的图像处理方法不同，基于神经网络的方法在训练分布之外的数据上表现不佳。由于MOLCAP是围绕复杂分子构建的，分子平均长度为> 40，因此该模型不能为较短的分子提供很好的描述。