Briefings in bioinformatics2022 | ABCNet：基于分治法的分子ImageToSMILES的DL架构

羊飘

已于 2022-10-14 16:03:58 修改

阅读量1.3k

点赞数 2

分类专栏：论文阅读--molecule 每日读论文 image2smiles 文章标签：计算机视觉深度学习人工智能

于 2022-10-14 15:57:37 首次发布

本文链接：https://blog.csdn.net/justBeHerHero/article/details/127322013

版权

每日读论文同时被 3 个专栏收录

56 篇文章

订阅专栏

论文阅读--molecule

35 篇文章

订阅专栏

image2smiles

12 篇文章

订阅专栏

论文标题：ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images

地址：ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images | Briefings in Bioinformatics | Oxford Academic

代码：https://github.com/zhang-xuan1314/ABC-Net/

现有的OCSR方法由于其恢复精度较差，远远低于现实要求的期望。为能产生SMILES，模型需要识别原子和键，并以特定的顺序排列原子。这极大地增加了识别难度，导致这种类型的模型的数据效率非常低，需要百万级的训练数据来达到良好的性能。此外，随着SMILES长度的增加，模型性能会迅速恶化。

数据集：ChEMBL database，使用RDKit实现SMILES筛选。分子中超过50个非氢原子被剔除。随机抽取10万种化合物。

利用分治原则，将识别分子的问题转化为识别原子和键的问题：(A)原子和键的检测、(B)原子和键的辅助信息识别、(C)分子的重建

在模型训练阶段，使用多任务训练方法同时训练原子和键的检测任务以及其他辅助属性识别任务

一、模型：

将预测目标热图中的所有正像素点设为1，所有正像素点的一阶邻居设为0.95，其他位置设为0。当两个键中心在热图中太近甚至重叠时，这可能会导致键缺失，在分子图像中，重叠的键必须有不同的方向才能被区分。因此，将0-360个◦均匀地分成60个间隔(60个类别)，一次进行60个二元分类任务，以确定在检测位置上是否有一个特定角度的键。在推理阶段，如下图D所示，通过在检测到的键位置搜索大于一定阈值的局部最大值来检测属于特定角度类别的键，对于相反的角度需要非最大抑制，因为对于相反角度的非立体键会有两个正响应，这代表相同的键。

重构算法结合神经网络输出构建graph输出。

通过寻找原子和键热图中的峰点分别来检测原子和键中心。然后，通过寻找沿角度类别轴的局部最大值，可以在每个键中心检测到不同角度类别的键。根据指定的键中心和键角计算出键的长度，对于每个键，可以根据键的中心位置、键角和键长找到两个与这个键相连的原子。原子和键就可以组装成一个分子图。对于其他原子和键的性质，如原子的类型和键的类型，它们可以从原子和键的性质预测图的相应位置推断出来。