2022Bioinformatics | MICER：A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning

羊飘

已于 2022-10-11 17:01:02 修改

阅读量388

点赞数 1

分类专栏： image2smiles 论文阅读--molecule 每日读论文文章标签：论文阅读

于 2022-10-11 16:58:55 首次发布

本文链接：https://blog.csdn.net/justBeHerHero/article/details/127244027

版权

每日读论文同时被 3 个专栏收录

56 篇文章 11 订阅

订阅专栏

论文阅读--molecule

35 篇文章 10 订阅

订阅专栏

image2smiles

12 篇文章 1 订阅

订阅专栏

一、问题提出

文献中化合物的结构是药物发现的核心，在大多数情况下都是以图像的形式描述的，不容易提取。

Chemgrapher是两阶段模型，使用分割网络来识别每个像素的类型，包括原子、键和电荷，并使用预测网络来预测每个像素的类型，包括原子、键和电荷类型。两阶段模型可以有效降低分子图像识别的噪声;但是，它们可能会遇到与优化相关的问题，例如错误传播。

DECIMER使用预先训练的模型作为特征提取器。然后将输出特征输入循环神经网络(RNN)进行解码，以获得self-referencing embedding字符串(SELFIES)。因此，它不能严格地归类为基于编码器-解码器架构的模型，因为它的特征提取器是一个冻结的神经网络，而解码器不协同学习。

这两个网络已经发过：

ChemGrapher:2020JCIM | ChemGrapher+：Optical Graph Recognition of Chemical Compoundsby Deep Learning_羊飘的博客-CSDN博客

DECIMER : 2021J Cheminform | DECIMER 1.0+: deep learning for chemical image recognition using transformers_羊飘的博客-CSDN博客

二、模型方法

基于 Pre-trained Encoder-Decoder 结构：

图（a）预训练结构：通过引入一个预先训练（imageNet）的模型（ResNet）作为编码器，并在解码器中加入注意机制，改进了经典的编码器-解码器架构。

图（b）将有机金属化合物、化学混合物、无效分子、重复的smile字符串和将smile字符串转换为标准形式进行过滤。ZINC20数据库（2.3亿+7.5亿），遵循以下原则:

数据集按8:1:1的比例划分为训练集、验证集和测试集。

使用Indigo或RDKit生成分子图像后进行转换，如图像归一化和图像缩放。

使用tokenizer将SMILES转换为true label，计算SMILES字符串的所有字符并生成字符字典。

由于SMILES序列的长度不等，按照SMILES长度分层抽样的方法，使分离的数据集更加均匀。

将图片输入到Encoder（Resnet），投影到隐藏空间，然后通过Decoder(Attention + LSTM),预测SMILES，损失为：

Encoder：在imageNet上训练好的ResNet，得到feature map（512,8,8），然后reshape为(64,512)，然后输入解码器。

Decoder：LSTM + attention （计算特征矩阵与上一步时间步隐式向量之间的评分，克服RNN长期依赖带来的梯度消失和梯度爆炸）

Tokenizer：

为了在解码器中表示和操作SMILES字符，将所有字符类型添加到一个字典中。SMILES字符串通常由一组ASCII字符组成，其中的字符除了原子信息外还包含键和同分异构体的信息。词典收录了39个常用的SMILES字符。因为模型必须在解码步骤中确定序列的开始和结束，所以将[sos]和[eos]添加到字典中，分别表示解码的开始和结束。另外，在处理不同长度的SMILES字符串时，长度需要统一，使用[pad]填充。

词典包括以下token:[pad],[sos] [eos], [0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [C], [l], [C], [O], [N], [N], [F], [H], [O], [S], [S], [B], [r],[I],[i],[P],[p], [(], [)], [=], [[], [@], []], [#], [/], [-], [+], [\\], 和[%]。smiles字符串没有按原子类型进行标记，因为发现即使使用字符(如[B]和[r])标记，模型也可以学习相应的原子组成范式。

评估指标：

Sequence Accuracy (SA, Strong constraints)：生成的SMILES序列与原始序列相同，结果才正确。在整个分子水平上分析识别精度。

Average Levenstein distance (ALD, Sequence similarity) ：两个字符串之间转换所需的最小编辑数。距离越小，模型性能越好。在原子水平上分析SMILES字符错误。

Average Tanimoto similarity and Tanimoto：利用Tanimoto 测量生成的分子指纹与原始分子指纹之间的相似性。该指标是在分子相似性水平上进行分析的，可以为分子性质预测等下游任务奠定基础。

Adam优化器，cross_entropy loss。解码器使用dropout设置为0.3。batch_size为256，lr为2e-5,15个epoch。整个模型在4个NVIDIA Tesla V100 gpu上训练了大约42小时

三、实验

通过SI和MC实验分析了分子复杂性对分子图像标注的影响。在四个评估指标中，主要关注SA值。

数据分析：

分子量小于200和大于500区间的SA值分别为94.85%和65.51%。如图c所示，SA、AMFTS和MFTS @1.0随分子量的增加呈显著下降趋势。

Backbone：

其他模型比较：

训练数据数量：

训练数据与模型识别性能正相关。将训练数据从64万增加到1000万，SA值提高了约10%(从87.58%提高到98.91%)。然而，对于超过600万的训练数据，模型识别性能趋于稳定。在600万数据量的水平上，模型精度达到98.84%，已经取得了令人满意的结果。

异常分析：

大部分的错误都属于单个原子的分类错误，“C”、“O”和“Cl”原子在分辨率较低的图像上更相似，因此这些原子的分类错误率较高。此外，在有噪声的数据中，发现Cl原子周围有噪声点的情况下，模型错误地将它们归类为O原子;这也许可以通过减少注意力障碍的区域来改善。带有噪声的复杂分子图像更容易被模型误判;例如，该模型将多个噪声点判断为单键，楔形键判断为双键等。总的来说，未来的研究可以识别超级原子、r基团、不规则立体化学键和超复杂原子。

羊飘

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2022Bioinformatics | MICER：A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning

Bioinformatics2022 | MICER：A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning
复制链接

扫一扫

专栏目录