Multi-modal chemical information reconstruction from images and texts for exploring the near-drug space
基于images-texts的Multi-modal结构信息重建以探索near-drug空间
code:没有公布代码
一、问题提出
类药物空间中包含的许多分子可能难以合成或缺乏预期的药物效果,因此如何建立一个由具有更多可合成化学结构和预期生物特性的化合物组成的“近药物”空间已成为提高成功率和降低药物发现过程成本的最核心目标之一。将重点放在化学专利上,因为专利中披露的结果可以更加及时、可靠和全面。此外,专利文件涵盖了大量具有可合成结构和预期生物特性的分子,这对发现有用的化合物特别有利。化学专利的主要输出是文本描述和图像模板的混合,许多努力都致力于开发可扩展和精确的工具,以从文本中识别命名实体和从图像中识别化学结构。
对传统分子smiles结构识别:Image2SMILES设法通过数据生成器识别化学结构中的非常规原子。然而,目前的方法在具有特殊键和原子的分子结构图像的识别上仍有一定的局限性。此外,化学专利通常以XML、HTML或PDF格式下载,这些格式的图像分辨率低,噪声大,难以准确提取分子结构。专利的不同形式的化学信息,即文字和图像,应协调利用,以提供准确的输出。然而,对于计算化学和人工智能的研究人员来说,这种结构融合仍然是一个公开的挑战。
目标是建立一个多模态化学信息重构系统(chemical information reconstruction system:CIRS),从专利文本和图像中自动处理、提取和对齐异质信息,以最小的人为干预促进化学结构数据库的构建。
二、Materials and methods
1、Data collection and preprocessing
对于Markush图像识别任务,从ChEMBL数据库(ChEMBL28版本)中下载SMILES格式的化学结构。使用RDKit对包含1 911 226个结构的原始SMILES数据集执行清洗。RDKit无法检索的结构被删除;有超过50个重原子的分子也被删除(因为分子图像太“拥挤”,无法处理)。随机数据分割:(1)150K图像训练集;(2) 30K图像验证集;(3)30K图像测试集。
在生成类似Markush结构图像时,使用一些常见的官能团和r基团来替换分子中的原子。使用RDKit识别显式氢原子,并随机替换为上面的标签。如果一个结构有一个或多个环,可以在一个或多个环上随机添加r基团和穿过环的键,以再现真实化学文献中的这种情况。因为RDKit只能生成Kekulized风格的芳香环,所以生成的分子首先以SVG格式保存。在保存步骤中,随机选择图像和原子标签填充大小、键合线宽度和偏移量、原子标签字体和总旋转角度,生成高度多样化的训练图像。然后对SVG字符串进行解析,并随机选取Kekulized样式的芳香环,并将其转换为芳香样式(一个环中间有一个圆)。最后,呈现SVG字符串以生成输出PNG图像。RDKit还提取了原子和键的坐标等附加的基本基元信息,用于创建语义分割和对象分类任务所需的标签。
文本数据来源于欧洲专利局和美国专利和T商标局下载的2712项英文化学专利,检索关键词为A61P、化合物、结构、年份(2010 - 2020)。
预处理主要包括截取取代基描述文本,并通过光学字符识别(OCR)程序将截取的文本转换为可编辑文本。共获得2712个片段,20 798个单词。
Functional groups: Me, OMe, NHMe, Et, OEt, NHEt, Pr, OPr,NHPr, i-Pr, Bu, OBu, NHBu, i-Bu, s-Bu, t-Bu, Ph, OPh, NHPh, T ol,Ts, OTs, NHTs, Bz, NHBz, CF3, CN, CHO, COOH, COOMe, COOEt,NHOH, NMe2, N E t2, N3, N O2, COCl, SOOMe, SOOEt, SOOPh, Bn,OBn, NHBn, Boc, OBoc, Cbz, OCbz, Tf, OTf, Piv , OPiv , Vin, All, TMS,OTMS, TBS, OTBS, THP , OTHP , TBDPS, OTBDPS, OMOM, TES, OTES,
IPDMS, OIPDMS, DEIPS, ODEIPS, CIIS, OCIIS, TIPDS, TFA, OTFA,Fmoc, OFmoc, Alloc, OAlloc, T roc, OT roc, Teoc, OTeoc, T r, OT r,DMTC, ODMTC, BPin, OLev , PMP , OPMP , PMB, OPMB, Bt, OMPA, Mes.
R-groups: R, R1 ∼ R10, Ra ∼ Re, R ’ , R ” , A , M , W , X , Y , Z , Ar , Hal , ∗, #
2、Overview of CIRS (method)
三个主要分支,即图像处理单元(左)、异构数据生成器(中)和文本处理单元(右),左边和右边的分支分别是取自化学专利图像和文本的模型;这两个分支通过异构数据生成器隐式连接,作为中间的集线器模块,其作用是跨域生成成对的训练数据。因此,在训练过程中,这两个模型将自动学习在跨领域识别化学实体和将它们对齐方面彼此协调。
训练过程:首先,异构数据生成器将以Markush结构图像和(像素级)原子/键标签的形式生成紧密耦合的化学实体对。然后将这些数据作为训练数据输入Image-processing unit,使用Unet3+和YOLOv5来将像素分割成原子和键,并为它们分配正确的标签。在右侧分支中,Text-processing unit采用BiLSTM-CRF模型进行名称实体识别,识别文本中的化学实体(r-基团和取代基)。然后,两个分支的输出,左边的原子/键标签和右边的化学实体,彼此对齐,以重建它们的化学信息。最后,为了将通过左侧模型识别的化学实体实际转化为可见的化学结构,建立了包含7781个取代基结构的取代基描述(化学名称)和SMILES字符串的结构数据库。
异构数据生成器作为中心模块产生跨形态的化学实体之间的关键对应关系。优点是对训练样本的数量和多样性没有严格的限制,可以根据用户的要求随机修改分子。这可以转化为图像处理和文本处理单元良好的泛化性能,这是模型在海量化工专利中提取化工信息的适用性的关键。因此,从双分支模型中提取的结构可以自动对齐,并推广到化工专利中不同的分子结构及其组合。
2.1、Image-processing unit
由语义分割网络和分类网络组成。【语义分割网络是为了将原子和键分割开来,然后再使用分类网络YOLO可以分类记录出原子和键的位置、类型】
语义分割网络UNet 3+:将每个像素分类为背景、原子或键,并将它们存储在具有像素位置的分割图中。512 × 512,epoch设为15,batch_size为4。考虑到前景(分子)和背景(空像素)的不平衡,选择focal loss。UNet 3+参数(空间复杂度)为26.97M,时间复杂度(FLOPs)为798.68G(每次forward前向运算)。
分类网络YOLOv5:其中原子和键分别被检测和分类。
- 首先根据 “原子特征图进行非极大值抑制(non-maximum suppression based on the atom feature map)” 定位原子,
- 然后计算并记录每个原子点的几何中心。
- 以原始图像和中心坐标为输入,预测每个原子的类型和电荷。
键以类似的方式处理。epoch为50,batch_size为16。YOLO网络的参数值值和FLOPs分别为47.05M和55.41G。将集成所有信息(原子类型、电荷、位置和连接模式),并使用RDKit将图像转换为具有结构化格式(如SMILES)的分子。(??通过rdk可以将图像转为SMILES??)
备注:什么是非极大值抑制(non-maximum suppression?
1. 什么是非极大值抑制
非极大值抑制,简称为NMS算法,英文为Non-Maximum Suppression。其思想是搜素局部最大值,抑制非极大值。NMS算法在不同应用中的具体实现不太一样,但思想是一样的。非极大值抑制,在计算机视觉任务中得到了广泛的应用,例如边缘检测、人脸检测、目标检测(DPM,YOLO,SSD,Faster R-CNN)等。
2. 为什么要用非极大值抑制
以目标检测为例:目标检测的过程中在同一目标的位置上会产生大量的候选框,这些候选框相互之间可能会有重叠,此时我们需要利用非极大值抑制找到最佳的目标边界框,消除冗余的边界框。Demo如下图:
左图是人脸检测的候选框结果,每个边界框有一个置信度得分(confidence score),如果不使用非极大值抑制,就会有多个候选框出现。右图是使用非极大值抑制之后的结果,符合我们人脸检测的预期结果。
2.2、Text-processing unit
使用BiLSTM结合CRF模型。输入文本序列w1, w2,…, wn由词向量vi表示,使用基于word2vector的word embedding捕获input text的语义信息,然后送入BiLSTM encoder将其转换为latent vector;然后将潜在特征向量hi转换为新的表示形式pi,然后将其送入线性CRF层,用于NER标签预测,这是一个从文本中检测真实世界实体的提及并将其分类为预定义类型的任务。使用CrossEntropy loss和10-fold cross validation ,使用Viterbi 算法解码。batch_size为64个序列,每个序列有256个token。参数为0.51M,FLOPs计算的时间复杂度为3.07M。Adam优化器。
3、Evaluation metrics
TP为真阳性率,FP为假阳性率,FN为假阴率。
三、Results and discussion
1、Markush chemical image recognition
公共数据集和相关方法大多针对公共结构图像(没有不确定标签的完整分子),这限制了它们的应用。
原始分子结构数据从ChEMBL数据库中收集,并用于生成markush型结构的分子图像。然后,这些数据集被用来训练图像处理单元,将给定的图像转换为机器可处理的分子格式,并验证其性能。图像主要包含R基团、官能团、环R键和随机椒盐噪声。
Image-processing unit性能使用两个数据源进行评估:(1) 由作者跨模态数据生成器生成的人工分子图像(通过将分子中的隐式氢原子替换为官能团、R基团);(2) MolrecUOB数据集,包含5740张真实的(有噪声的)图片,这些图片来自真实的化学文档,包含了官能组(R-groups)。
目标是识别化学基元并预测其标签(原子/键类型、电荷等),并基于识别基元的连接模式以SMILES格式重建分子结构。
其中语义分割模块可以准确地识别原子和键,即使存在椒盐噪声。该模块的像素精度达到0.982,这表明它可以有效地检测图像中的原子和键的位置。对于原子分类模块,找到正确原子类型的精度平均超过0.996,而R组检测的精度略低(0.976),因为R组的样式和格式通常是可变的。对于化学键,分类模块的性能也很高(0.996)。最常见的失败是楔形、破折号和环形r键的混淆,因为楔形和环形r键可能看起来像单键。破折号键有时会被模型忽略,因为它的可见度比普通键低,特别是在背景噪声水平高的情况下。原子电荷的预测精度约为0.989。小字体的电荷符号可能会得到稍低的精度。该模型的良好性能主要归功于高质量的训练图像生成。
可以正确重建79%的输入MolrecUOB图像的结构,Tanimoto相似度评分为0.90,表明模型对真实数据具有良好的泛化能力
2、Chemical entity recognition
专利中化学结构文本的标注语料库尤其有限,这直接影响了训练模型的泛化能力。为了解决这个问题,从欧洲专利局和美国专利及商标局下载了2712项化学专利,收集了实体文本和注释训练(2400个片段)和测试(312个片段)集,共20 798个单词。训练集中有6755个片段,验证集中有751个片段,测试集中有312个片段。
(A)带有一些取代类型(S-Entity, S-component, B-component, M-component and E-component)的NER注释片段。(B)数据增强protocol,,将2400个原始片段转换为7506个片段。(C)化学实体在训练、验证和测试集中的分布。(D) BiLSTM-CRF体系结构测试处理单元的说明。(E)实体预测的混淆矩阵;矩阵的第(ij)项表示第i类实体中被预测为第j类实体的部分。主导对角线实体表示准确的预测。
识别实体性能:
3、Case study of chemical information reconstruction
通过一个案例研究来演示CIRS的实用性,在该案例中,选择了一个特定的专利,从其图像和文本描述中提取化学实体,将实体排列在一起,最后将重构的信息转换为结构化的分子数据库。
该专利包含约4个分子式和11个分子图像,展示了他们的化合物发明。选择了一个化学信息提取公式(Ia)来证明CIRS的实用性。如上图所示,公式(Ia)由两部分组成:Markush分子图像和取代基实体文本。
通过CIRS,分别从图像和文本中提取了一个Markush结构和8个具有123个取代基结构的化学实体,将化学实体跨文本和图像的形态进行对齐,并执行专利公式中规定的替换/组合规则,结果得到了2 082 500个分子。与原始专利中报告的11个分子实例相比,这是一个显著的丰富。可以看出,系统可以提取专利中的化学发现,并将其转化为具有所需替换规则的高度综合的分子集合,重构其化学信息。这可以作为药物筛选有用的分子数据库。可以预见的是,通过将系统应用到大量的化学专利中,可以获得大量的结构来促进近药物分子的生成,并有望为制药行业构建一个有用的近药物空间