点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
点击 阅读原文 观看作者讲解回放!
个人信息
作者:李瑞凤,浙江大学计算机学院博士生
摘要
分子性质预测是药物研发工作中非常重要且基础的任务。当前的 AI 方法进行分子性质预测时,要获得较好的结果就需要大量数据来训练模型。但训练数据都来自于化学实验,而化学实验的周期较长,成本昂贵,成功率低,意味着这一领域能获取的有标签数据是很稀少的。正因如此,设法实现少样本场景下的分子性质预测就非常重要。
针对当前少样本分子性质预测领域常见方法不能较好预测分子多个层级性质的问题,来自浙江大学计算机学院的团队提出一种名为 UniMatch 的新方法。该方法可以更好地预测分子各个结构层的属性,提升 AI 模型在少样本背景下预测分子性质的能力。
论文地址:
https://arxiv.org/html/2502.12453v1
Background
使用人工智能技术进行分子性质预测时,大致分为两个阶段:第一个阶段主要学习分子表征,将分子的结构或序列信息输入到模型中供模型学习到分子表征;第二个阶段,将分子表征再输入到分类器中就会得到预测结果。
目前,业内有很多方法研究少样本场景下的分子性质预测问题,包括基于图结构方法的 PAR、Meta-GNN,基于序列方法的 MHNFs 等。但这些方法都忽略了一个关键事实:分子的不同层级(注)的特征会影响其性质。而图方法一般更关注宏观整体层级的性质预测,序列方法更关注微观局部层级的性质预测,它们都不能较好地同时预测分子所有层级。
(注:分子结构有不同层级,基础的组成单元是原子,原子通过化学键连接成化学子结构,小的子结构继续拼接而成完整分子。原子、子结构和分子被视为分子结构的不同层级。)
例如,上图中原子层级中,同样是与氢结合,氢氟酸中的氟会让分子呈现强酸状态,(Ammonia)中的氮却会让分子呈现碱性状态;子结构层级中,羧基位于十二烷(Dodecane)中时会让分子具备强疏水性,位于乙醇中时却呈现低疏水性;分子层级中,同样的三原子结构,水的沸点很高,二氧化碳的沸点却很低。由此可见,各个层级的结构特征不同会对分子性质产生明显影响。
对于模型而言,各个分子结构层级是数据层,各个结构表现出来的性质可以看作任务(属性)层,所以分子性质预测问题本质上应该有四个层级(三个结构层和一个任务层)。现有方法都不能很好地覆盖全部这些层级。因此,浙江大学团队提出了一种考虑全部四个层级进行少样本分子性质预测的方法,名为 UniMatch。
UniMatch:全局匹配四个层级的少样本预测方法
UniMatch的框架示意
在少样本学习场景中,数据可以分为 Support set 和 Query set 两部分,前者有标签而后者没有,需要根据前者的数据预测后者的标签。UniMatch 首先将支持样本和查询样本输入到 GNN 中,GNN 的每一层都有 Pooling 和 Matching 的操作,前者用于聚集每个分子层级的结构信息,后者用于对比两个数据集的信息,了解不同层级之间的差异性和相似性。最终,每一层 Matching 的结果会拼接在一起,通过 Fusion Model 处理,得到最终预测结果。
在任务层级,UniMatch 采用元学习策略实现隐式任务匹配:
训练阶段使用一个训练损失公式,通过对 Query set 中真实标签和预测标签计算而得出 Loss。训练过程分为 Inner loop 与 Outer loop,前者优化任务特定参数,让模型更快适应新任务;后者优化整体元参数,通过最小化所有任务的聚合损失来提升模型整体泛化性。
为了更好地阐述元学习能较好地实现隐式任务层级匹配,这里引入了一个任务关系矩阵。它可以在更高层级上展现元学习如何捕捉任务间的相似性。在内层,任务关系矩阵可以用来更新特定任务的参数;在外层,任务关系矩阵可以展现所有任务之间的关系,并用这种关系信息更新元参数。
该方法也经过了 MoleculeNet benchmark 的验证:
上半部分是从头开始训练的测试结果,下半部分是加载预训练参数后的结果。可以看到加载预训练参数后的效果更佳,领先业内已有方法。
FS-Mol benchmark 测试结果如下:
可以看到不同的 Support set 设置下,UniMatch 的表现都是业界最佳的。
Meta-MolNet benchmark 结果如下:
从七个数据集的测试来看,UniMatch 相较已有方法表现出了相当或更强的泛化性能。
近期活动推荐
ICVPR 2025一作讲者招募中,欢迎新老朋友来预讲会相聚!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 观看作者讲解回放!