今天介绍一篇10月17日上传到arXiv上的论文:“Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model”。目前,多目标分子优化领域面临许多挑战,一些主流的方法主要依赖外部属性预测器来指导分子的迭代优化,但这些方法存在局限性,如无法全面学习广阔的化学空间、在属性预测中引入误差和噪声,导致优化过程中误差累积和泛化能力下降,从而影响分子候选物的质量和优化效率。为解决这些问题,作者提出了一个名为TransDLM的新型文本引导的多属性分子优化方法,它利用基于Transformer的扩散语言模型来优化药物发现中的目标分子,以满足实际工业需求。该方法通过将分子的化学命名法作为语义表示,并隐式地将属性要求嵌入到文本描述中,避免了传统方法中因依赖外部属性预测器而引入的误差传播问题,旨在提高分子优化的效率和准确性,也保证了与源分子结构的相似性。同时,它的并行化和可扩展性使其能够支持同时采样多个分子,适合在基于Web的平台上进行分布式计算。
1 简介
随着条件生成模型的快速发展,分子生成技术在药物反应预测和药物靶标结合亲和力等任务中取得了显著进展。然而,这些为特定任务生成的分子在工业生产中的应用仍显不足,因此分子优化成为了一项关键任务。传统方法依赖化学家的经验和直觉,效率低下。深度学习方法通过学习SMILES、图形和3D结构来加速分子优化,但这些方法往往忽视了保留分子核心结构的重要性。此外,基于引导搜索的方法虽然采用了先进的优化技术,却受限于外部属性预测器的准确性,容易引入误差和噪声。为了解决这些问题,TransDLM模型被提出,它利用扩散模型和语言描述来优化分子,避免了对外部属性预测器的依赖,减少了误差传播,并能保留分子的核心结构。TransDLM在多属性优化方面表现出色,能够同时优化分子的结构相似性和化学属性,且适合大规模分布式计算环境。
2 相关工作
2.1 分子优化
基于分布匹配的方法
基于分布匹配的方法采用匹配分子集(matched molecular set, MMS)。在MMS中,性质较差的分子集被称为源分子,而具有所需性质的分子集被指定为目标分子。分子分布匹配的重点是学习MMS数据集中两个分子集之间的映射关系。这保证了源分子集和目标分子集是相邻的。然而,基于分布匹配的方法是有限的,因为它们无法针对所需的对应物优化特定分子。由于这些局限性,这些方法最终被逐步淘汰。
基于引导搜索的方法
基于引导搜索的方法探索通过编码器-解码器模型学习的分子化学空间或潜在空间内的目标分子,使用分子性质预测器或统计模型进行指导。这一类方法依赖于外部属性预测器来迭代优化分子属性,不可避免地在优化过程中引入误差和噪声。
基于分子映射的方法
与MMS相比,具有中等结构差异和显著化学差异的两个分子被认为是匹配的分子对(MMP),其中性质较差的分子被视为源分子,另一个具有理想性质的分子被视为目标分子。分子映射涉及学习MMP之间的映射功能F。对于一个MMP(x,y),其中x和y在连续原子之间存在微小差异,但在性质上存在显著差异,分子映射的形式表示为F(x):x→y。该方法使用MMPs衍生的药物化学转化规则执行,应用药物化学家的知识和专业知识。作者提出的TransDLM方法就是一种基于分子映射的方法,创新地将扩散语言模型引入到MO(molecule optimization,MO)任务中,从而实现分子的连贯和有效优化。
作者将随机噪声引入到基于潜在扩散模型的潜在变量中,并通过一系列去噪步骤反转这一过程来学习数据生成。然而,语言和图像之间的数据结构存在差异,因为语言是离散的,而图像存在于连续域中。为了解决这个问题,某些方法保留了文本的离散性质,并扩展扩散模型来处理离散数据。相反,其他方法利用嵌入层将文本映射到连续的表示域,从而保留连续的扩散步骤。作者的研究与后一种策略一致,专注于词向量,并大大扩展了基于SMILES的MO中扩散模型的功能和可行性。
3 方法学
3.1 总体框架
本文的目标是优化一个分子,直到它匹配指定的文本描述。形式上,让表示输入描述,其中表示序列中的第个单词,表示文本长度。目标是开发一个模型,将该文本和原始分子作为输入,并产生相应的分子作为输出,其数学上可以表示为。总的来说,TransDLM由四个关键过程组成:嵌入、加噪、去噪和舍入。如图1所示,这些过程协同工作以产生所需的优化分子。
图1:TransDLM框架。首先,使用Recap策略将源分子分解成片段。然后,利用IUPAC名称生成文本描述,指导去噪过程。同时,源分子和目标分子通过SMILES标记器和预训练的语言模型编码到嵌入中,分别作为初始向量和目标向量。
嵌入过程首先处理文本序列作为有序的单词列表。使用嵌入函数映射每个单词,得到,其中代表序列长度,代表嵌入维度。然后,噪声处理过程从矩阵开始,该矩阵从以为中心的高斯分布中采样:。
在噪声处理过程中,噪声逐渐被引入,最终得到纯高斯噪声,其中为总扩散步骤的超参数。从到的过渡定义如下:
其中,是一个超参数,代表在扩散步长时添加的噪声量。
接下来,去噪过程从编码的源分子开始,依次从采样,逐渐重建原始内容。通常,训练神经网络是为了在给定的情况下预测。为了提高针对特定词向量对去噪的准确性,我们训练了一个神经网络来直接从预测。因此,从到的去噪过渡可以表示为:
其中,,便于从中迭代取样,从而得到。
最后,舍入过程将嵌入向量转换回目标分子的SMILES字符串。在此过程中,每个列向量都与嵌入距离最近的L-2词匹配。因此,组合去噪和舍入过程有效地将任何初始噪声转换为连贯的SMILES字符串输出。
3.2 描述生成器
分子结构特征
作者使用Recap对分子进行拆解,根据逆合成化学原理将结构分解成片段。一旦识别出关键片段对化学反应性至关重要,就可以很容易地将它们划分为隔离块以进行优化。在分子拆解之后,专注于片段如何相互连接。RDKit是一个提供化学信息的开源Python软件包。作者使用其内置的函数来确定片段之间的结合位点和连接方式。
IUPAC有机化学命名法
国际纯粹与应用化学联合会(IUPAC)命名系统为化合物提供了标准化的命名约定,这对于避免因常见或琐碎的名称而产生的歧义至关重要。在文本描述指导下优化分子时,使用IUPAC名称代替SMILES字符串来表示片段,同时补充源分子的IUPAC信息作为分子语义表示。如图2所示,一方面,IUPAC名称提供了分子结构的详细和层次描述,包括官能团、立体化学、分支和链长。这种级别的粒度可以潜在地提高生成过程的精度,特别是在针对特定的化学性质或结构时。另一方面,与SMILES相比,IUPAC的命名法约定提供了更多的语义信息。这是因为它们比SMILES字符串更具结构化和描述性,后者的特点是仅仅基于连通性的线性文本格式。丰富的语义细节允许IUPAC名称传达更精确的化学信息,使它们更具可解释性,并且适合于从理解化学语义中受益的语言模型。
图2:IUPAC名称与SMILES的对比示例。
文本描述生成
除了物理结构信息外,还需考虑所需的优化化学性质。具体来说,原始的数值性质值和MMPs之间的变化被补充到文本描述中。利用上述工具,生成了一个充满详细分子结构和丰富语义信息的文本描述。例如,目标分子C#CCOC(=O)c1ccccc1O可以描述为:目标分子由2-羟基苯甲酸乙酯优化而成,该2-羟基苯甲酸乙酯由乙醇和2-羟基苯甲醛通过O-C单键连接。其logd在(0.3,0.5]之间变化,其溶解度约为2.442,其清除率小于1.904。
3.3 SMILES 标记符号生成器
对SMILES字符串中的每一个字符进行标记会破坏多字符单元之间的统一性,于是作者将SMILES字符串中的语义组保留。例如,[CH3-]是一个带负电荷的甲基,而不是由不相关的字符(如[,C和H)组装的序列。所有的语义组一起构成了词汇表,TransDLM能够对任何SMILES字符串进行语义上和整体的编码。例如CC([Si]=O)C[CH3-]被编码为[[SOS],C,C,(,[Si],=,O,),C,[CH3-],[EOS],[PAD],…,[PAD]]。并且将每个序列填充到最大长度。在标记化之后,标记化分子将被用于嵌入过程,通过从分布中采样得到。
3.4 文本引导分子优化
与传统的从纯噪声中采样的扩散模型不同,作者提出的TransDLM生成策略从编码源分子SMILES字符串中采样,如第3.3节所述。该方法有效地解决了以往MO方法的不确定性和不可行性,并调整了所需优化分子的方向。
为了将文本描述转换为机器可读的语言,需要使用预先训练好的语言模型将文本序列映射到其潜在嵌入,其中表示语言模型输出的嵌入维度。该模型基于Transformer框架,其函数如以上公式中的所示。考虑到当前的扩散状态、时间步长和文本嵌入,初始状态被预测为:。由于自注意力机制是无序的,Transformer结构本身并不具备位置信息,就会丢失输入的顺序信息。因此,为了使模型能够识别输入序列中每个元素的位置,作者在第一层中采用位置编码策略,定义为:
其中,为位置嵌入,是将时间步长嵌入高维向量,的操作,是Transformer的维数。
在标准Transformer自注意力机制中,每个token对同一输入序列中的其他标记进行注意计算。因此,为了提高我们模型的多模态数据处理能力,增强文本描述对MO的正向引导,TransDLM采用交叉注意机制计算文本描述作为附加上下文的输入序列。具体来说,该模型的Transformer骨干网由层组成,分别有一个交叉注意块,将文本描述纳入隐藏状态如下:
其中,表示第层中的可学习参数,表示多层感知机。完成上述步骤后,我们在文本描述的指导下,从初始嵌入源分子中获得矩阵。然后,准备对矩阵进行舍入,随后将其转换为SMILES字符串。
3.5 TransDLM训练
在训练过程中,方法主要是最大化边际似然的变分下界(VLB),主要目标是训练神经网络(用表示),在去噪扩散轨迹内的每个时间步逐步重建原始数据,描述为:
其中,表示舍入过程,是softmax分布的乘积。
TransDLM利用底层数据结构和指导性文本,通过迭代将有噪声的中间状态细化为其原始形式,从而学会有效逆转扩散过程。
4 理论分析
4.1 梯度误差计算
传统方法的损失函数通常由属性损失和结构损失组成,可以表示为:
其中,是外部属性预测器预测的分子的属性值,表示目标分子结构,和是调整属性损失和结构损失权重的超参数。因此,从3.5节的公式和上述中推断,分子的梯度分别是:
由于外部属性预测器的误差,属性损失的梯度也会出现误差。因此,作者定义如下:
-
属性预测误差:
-
属性梯度预测误差:
-
实际属性值和梯度:和
因此,属性损失梯度的误差为:
作者的模型的梯度误差主要来源于近似误差。由于对的直接拟合和使用了包含属性信息的文本提示,作者的模型的梯度误差相对较小,定义为:
最后,作者将他们的方法的梯度误差方差与传统方法进行了比较。
4.2 梯度误差方差比较
对于传统方法,属性损失梯度误差为:
其中,假设和是独立的,期望值为零,并且和是确定性的,或者它们的方差可以忽略。
同理,TransDLM的梯度误差方差为:
对于传统方法,梯度误差方差取决于模型的梯度计算误差和外部属性预测器的误差。由于外部预测器可能存在显著误差,这可以显著增加整体梯度误差方差。相反,TransDLM模型的内源误差主要由和控制,并且不依赖于外部属性预测因子。因此,减少了由外部误差引起的方差项。
假设传统模型和TransDLM的拟合能力是相同的,即和相似,传统方法有额外的与外部属性预测因子相关的误差项。可以推断,在中的和是排除在扩散模型之外的附加误差项。因此,只要不是一个非常小的值,都会大于。综上所述,作者的文本引导MO模型与扩散语言模型在控制误差传播方面优于传统方法,即<。
5 实验
5.1 实验设置
数据集
以目前唯一公开可用的数据集,MMP数据集为中心。该数据集包括198,558对具有ADMET特性的源-靶分子对。
指标
-
SMILES BLEU得分和Levenshtein距离:语法相似度以及优化后的SMILES字符串与目标字符串之间的距离。
-
MACCS FTS,RDK FTS和Morgan FTS:优化后的分子和目标分子指纹之间的平均谷本相似度。
-
Exact匹配和Validity:与目标分子相同的优化分子和可由RDKit处理的语法有效分子的比例。
-
FCD(ChemNet Distance):潜在信息一致性。
-
ADMET属性精度。
基线
-
MIMOSA:该模型使用他们的预测工具,并利用子结构操作来产生新的分子。
-
Modof:由多个相同的模式模型组成的流水线在预测的断开位点修改输入分子。
-
MolSearch:该框架采用两阶段搜索策略,根据化合物文库衍生的转化规则修改分子。
-
Chemformer:这是一个基于Transformer的模型,对未标记的SMILES进行预训练,并对MO任务进行微调。
-
FRATTVAE:为MO任务训练了一个基于片段树转换器的VAE模型。
5.2 实验结果
如表1和表2所示,TransDLM通常优于所有基线模型。尽管一些基线在有效性方面表现出色,但它们在其他指标上表现不佳,这表明了局限性。其中,TransDLM获得了最好的BLEU评分,Levenshtein距离提高了8.6%,表明与目标分子结构的一致性更好,序列精度更高。FTS标准上的大部分优势进一步突出了它捕获分子指纹的能力,为了解分子的结构信息提供了更深入的见解。
值得注意的是,FCD提高了43.8%,这表明TransDLM生成的分子与训练数据的分布更接近,从而优于其他方法。虽然Chemformer在Exact分数中匹配了更多的目标,但它在性能要求上表现不佳。在ADMET性能方面,LogD、溶解度和Clint分别提高了30.8%、1.8%和0.3%,达到所有ADMET性能标准的优化分子的比例显著提高了27.9%。
表1:结构相似性的优化结果与基线模型和MMP数据集测试片段的消融研究进行比较。粗体表示最佳分数,下划线表示次优分数。此外,TransDLMnoise和TransDLMSMILES分别表示从纯噪声中采样和根据基于SMILES字符串的描述进行优化。
表2:将ADMET特性的优化结果与基线模型和MMP数据集测试片段的消融研究进行比较。判据“All”表示满足所有性能要求的优化分子的比例。
5.3 消融实验
作者进行了两项消融研究来验证TransDLM策略的有效性,概述如下:
-
在描述生成过程中,将IUPAC名称替换为原始SMILES字符串,以证明前者携带更多的语义信息。
-
在去噪过程中,直接从纯噪声中采样,而不是从编码的源分子中采样,以验证后者对于保留源分子支架的有效性。
同样如表1和表2所示,以IUPAC名称的描述为指导的优化显示出比原始SMILES字符串更好的性能。这意味着IUPAC命名法传达了更多的物理和化学语义信息,这有利于文本引导的MO。同样,尽管从编码源分子中采样在属性标准上牺牲了很少的优势,但在大多数结构指标上,它比纯噪声产生了更好的结果。这表明作者采用的采样策略在不破坏原始支架的情况下优化了分子。
5.4 案例研究分析
在整体性能方面,TransDLM模型表现出强大的物理构造和化学优化能力。为了验证该方法不仅在数值性能上有所改进,而且真正满足适度结构差异和实质性化学差异的MO目标,作者进行了一个案例研究分析,如图3所示。
图3:具有相同输入文本描述的不同模型优化的分子示例。为了更清晰的可视化,生成的SMILES字符串被转换成分子图。加粗表示优化后的分子满足相应的性质要求。
在前两种情况下,两个MMPs经历了一个原子和一个官能团的取代。TransDLM精确地确定了需要更换的位置,并进行了结构修改,在文本描述的指导下满足了所有ADMET的属性要求。在TransDLM不能完全识别所有修饰位点的情况下,如第三种情况,TransDLM还有效地维持了源分子的核心支架,在不过度修饰物理结构的情况下满足了化学性质的要求。相比之下,其他方法要么严重破坏了原始分子的结构,要么无法满足MMPs所需的化学性质,这凸显了它们的局限性。
6 结论
作者提出的基于文本引导SMILES的MO语言扩散模型TransDLM,利用IUPAC命名法进行分子语义表示,并通过物理和化学详细的文本描述来优化分子,而不是依赖于外部属性预测器,防止了由预测器引起的错误传播。作者首先从理论上论证了TransDLM的有效性,并使用MMP数据集进行了验证实验,证明了TransDLM优于其他方法。而且,TransDLM可以同时对多个分子进行采样,使其非常适合可扩展的基于Web的应用程序,并允许有效的大规模优化,利用网络的分布式计算能力。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈