2022Bioinformatics | MICER:A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning

一、问题提出

文献中化合物的结构是药物发现的核心,在大多数情况下都是以图像的形式描述的,不容易提取。

Chemgrapher是两阶段模型,使用分割网络来识别每个像素的类型,包括原子、键和电荷,并使用预测网络来预测每个像素的类型,包括原子、键和电荷类型。两阶段模型可以有效降低分子图像识别的噪声;但是,它们可能会遇到与优化相关的问题,例如错误传播。

DECIMER使用预先训练的模型作为特征提取器。然后将输出特征输入循环神经网络(RNN)进行解码,以获得self-referencing embedding字符串(SELFIES)。因此,它不能严格地归类为基于编码器-解码器架构的模型,因为它的特征提取器是一个冻结的神经网络,而解码器不协同学习。

这两个网络已经发过:

ChemGrapher:2020JCIM | ChemGrapher+:Optical Graph Recognition of Chemical Compoundsby Deep Learning_羊飘的博客-CSDN博客

DECIMER : 2021J Cheminform | DECIMER 1.0+: deep learning for chemical image recognition using transformers_羊飘的博客-CSDN博客

二、模型方法

基于 Pre-trained Encoder-Decoder 结构:

图(a)预训练结构:通过引入一个预先训练(imageNet)的模型(ResNet)作为编码器,并在解码器中加入注意机制,改进了经典的编码器-解码器架构。

图(b)将有机金属化合物、化学混合物、无效分子、重复的smile字符串和将smile字符串转换为标准形式进行过滤。ZINC20数据库(2.3亿+7.5亿),遵循以下原则:

数据集按8:1:1的比例划分为训练集、验证集和测试集。

使用Indigo或RDKit生成分子图像后进行转换,如图像归一化和图像缩放。

使用tokenizer将SMILES转换为true label,计算SMILES字符串的所有字符并生成字符字典。

由于SMILES序列的长度不等,按照SMILES长度分层抽样的方法,使分离的数据集更加均匀。

将图片输入到Encoder(Resnet),投影到隐藏空间,然后通过Decoder(Attention + LSTM),预测SMILES,损失为:

Encoder:在imageNet上训练好的ResNet,得到feature map(512,8,8),然后reshape为(64,512),然后输入解码器。

Decoder:LSTM + attention (计算特征矩阵与上一步时间步隐式向量之间的评分,克服RNN长期依赖带来的梯度消失和梯度爆炸)

Tokenizer:

为了在解码器中表示和操作SMILES字符,将所有字符类型添加到一个字典中。SMILES字符串通常由一组ASCII字符组成,其中的字符除了原子信息外还包含键和同分异构体的信息。词典收录了39个常用的SMILES字符。因为模型必须在解码步骤中确定序列的开始和结束,所以将[sos]和[eos]添加到字典中,分别表示解码的开始和结束。另外,在处理不同长度的SMILES字符串时,长度需要统一,使用[pad]填充。

词典包括以下token:[pad],[sos] [eos], [0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [C], [l], [C], [O], [N], [N], [F], [H], [O], [S], [S], [B], [r],[I],[i],[P],[p], [(], [)], [=], [[], [@], []], [#], [/], [-], [+], [\\], 和[%]。smiles字符串没有按原子类型进行标记,因为发现即使使用字符(如[B]和[r])标记,模型也可以学习相应的原子组成范式。

评估指标:

Sequence Accuracy (SA, Strong constraints)生成的SMILES序列与原始序列相同,结果才正确。在整个分子水平上分析识别精度。

Average Levenstein distance (ALD, Sequence similarity) :两个字符串之间转换所需的最小编辑数。距离越小,模型性能越好。在原子水平上分析SMILES字符错误。

Average Tanimoto similarity and Tanimoto:利用Tanimoto 测量生成的分子指纹与原始分子指纹之间的相似性。该指标是在分子相似性水平上进行分析的,可以为分子性质预测等下游任务奠定基础。

Adam优化器,cross_entropy loss。解码器使用dropout设置为0.3。batch_size为256,lr为2e-5,15个epoch。整个模型在4个NVIDIA Tesla V100 gpu上训练了大约42小时

三、实验

通过SI和MC实验分析了分子复杂性对分子图像标注的影响。在四个评估指标中,主要关注SA值。

数据分析:

分子量小于200和大于500区间的SA值分别为94.85%和65.51%。如图c所示,SA、AMFTS和MFTS @1.0随分子量的增加呈显著下降趋势。

Backbone:

 其他模型比较:

 训练数据数量:

训练数据与模型识别性能正相关。将训练数据从64万增加到1000万,SA值提高了约10%(从87.58%提高到98.91%)。然而,对于超过600万的训练数据,模型识别性能趋于稳定。在600万数据量的水平上,模型精度达到98.84%,已经取得了令人满意的结果。

异常分析:

大部分的错误都属于单个原子的分类错误,“C”、“O”和“Cl”原子在分辨率较低的图像上更相似,因此这些原子的分类错误率较高。此外,在有噪声的数据中,发现Cl原子周围有噪声点的情况下,模型错误地将它们归类为O原子;这也许可以通过减少注意力障碍的区域来改善。带有噪声的复杂分子图像更容易被模型误判;例如,该模型将多个噪声点判断为单键,楔形键判断为双键等。总的来说,未来的研究可以识别超级原子、r基团、不规则立体化学键和超复杂原子。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值