今天分享的是一篇发表在nature communications期刊上的论文:“Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation”,本文介绍了一种创新的多通道学习框架,用于整合分子结构层次信息,生成上下文依赖的分子表示,以提升分子性质预测的准确性。
1.介绍
在药物发现领域,可靠的分子性质预测至关重要,但数据稀缺和分子结构与性质之间的复杂关系给模型开发带来了挑战。尽管自监督学习(SSL)在分子表示学习中展现出潜力,但现有方法往往忽视了化学知识,难以捕捉分子性质的上下文依赖性,且在处理“活性悬崖”等复杂场景时表现不佳。
针对这些问题,论文提出了一种多通道预训练框架,通过不同的预训练任务学习分子的全局和局部特征,并在微调阶段根据具体任务聚合信息,使表示具有上下文依赖性。该框架包括分子距离对比学习、支架距离对比学习和上下文预测三个通道,分别从全局、局部和功能基团等不同角度学习分子表示。实验结果表明,该方法在多个分子性质预测基准测试中取得了优异的性能,特别是在处理活性悬崖等复杂场景时,展现出更强的鲁棒性和优势。
2.方法
2.1整体框架设计
该框架主要包含三个部分:分子对比学习、骨架对比学习、分子上下文预测、提示引导的聚合模块。预训练阶段,将原始分子图、遮掩处理的分子图、在骨架不变情况下扰动的分子图输入一个统一的编码器,将得到的表征分流到各自的通道中,使用提示引导的聚合模块获得专注于分子不同层次的结构特征。
2.2自适应边距对比学习
传统的三元组损失函数通常用于对比学习,目标是将相似样本(正样本)拉近,并将不相似样本(负样本)推远。具体来说,对于一个给定的锚点(anchor),正样本和负样本之间的距离需要满足一定的边距(margin)要求,公式如下,该公式要求正样本之间的距离与负样本之间的距离之差至少为固定边距α,这忽略了已知的分子结构间的相似性。论文使用了自适应边距对比损失,该损失用在分子对比学习、骨架对比学习中,公式如下,
其中,
利用分子指纹相似度来计算自适应边距,同时损失的计算由三元组变为了四元组,虽然理论复杂度升高,但可以对α2中的相似性之差执行固定大小的随机抽样。如果计算值为负值,则四元组也会被丢弃。
2.3提示引导的多通道学习
每个通道的聚合模块中,有特定的查询向量与原子表示进行交叉注意力,得到对应的分子表示,之后可根据这3种分子表示计算分子对比损失、骨架对比损失、上下文预测损失。为了提高通道对齐、正则化融合表示,使用预设的提示权重将这3个层次的特征加权求和得到融合表征,用一个小型监督任务的预测损失作为正则项,损失函数公式如下,在微调阶段,冻结聚合模块的参数,根据特定的任务调整编码器参数和提示权重。
3.实验
论文使用了一个5层的GIN模型作为编码器,隐藏层维度为300。GIN模型能够有效地捕捉分子图的结构信息,并通过消息传递机制更新节点表示。还使用了一个具有相同层数和隐藏层维度的Graph Transformer(GPS)模型,GPS 模型能够更好地处理分子图中的长程依赖关系,并通过自注意力机制捕获节点之间的相互作用。
3.1实验数据集
MoleculeNet基准测试:该基准测试包含七个分类任务,涵盖了生理、生物物理等多个分子性质领域。
MoleculeACE基准测试:该基准测试包含30个结合亲和力预测任务,数据集主要关注结构-性质关系(SPR),其中活性悬崖现象较为突出。这些数据集主要包含分子与大分子靶标的结合亲和力测量数据,如Ki值等,对于评估模型在药物发现中的应用具有重要意义。
3.2实验结果及分析
在MoleculeNet基准测试中,论文方法在多个任务上取得了优异的性能。具体来说,OursGIN和OursGPS在BBBP、Clintox、BACE和SIDER数据集上的ROC-AUC值均高于其他基线方法。
在MoleculeACE基准测试中,在多个结合亲和力预测任务上也表现出色。具体来说,OursGPS 在 30 个数据集中的平均R-squared值,仅次于KPGT,但模型尺寸比KPGT小一个数量级。在数据量较小的数据集上,也能够取得较好的性能,这得益于多通道学习框架能够充分利用有限的数据学习到有效的分子表示。
为了评估模型表示的鲁棒性,对模型在微调过程中的表示空间变化进行了探测,使用T-SNE技术将表示空间降维到二维,在训练过程中的ROGI值始终较低,表明表示具有更平滑的结构-性质景观,更易于建模。同时,Rand指数下降幅度较小,表明在微调过程中对分子结构信息的保留较好。此外,论文的方法的悬崖-非悬崖距离比始终大于1,且高于其他方法,表明对活性悬崖具有更好的理解。
在活性悬崖分析中,使用GNNExplainer对模型的预测结果进行解释,并与AutoDock Vina预测的结合模式进行对比,可知论文方法能更准确地识别出对结合亲和力有重要影响的化学结构特征,从而活性悬崖问题上有更大的优势。
4.结论
论文提出的的多通道学习框架,通过整合分子结构层次信息,生成上下文依赖的分子表示,在分子性质预测和结合亲和力预测任务上取得了优异的性能。实验结果表明,该框架能够有效地处理活性悬崖等复杂场景,具有更强的鲁棒性和泛化能力。这一研究为分子机器学习领域提供了新的思路和方法,有望推动药物发现领域的应用。未来,可以将进一步探索该框架在其他化学领域的应用,并尝试结合更多的输入表示和更有效的提示权重优化机制,以进一步提高模型的性能。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈