#MoMa
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

混合专家,也得术业有专攻。

对于目前的混合模态基础模型,常用的架构设计是融合特定模态的编码器或解码器,但这种方法存在局限:无法整合不同模态的信息,也难以输出包含多种模态的内容。

为了克服这一局限,Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构,它可以根据下一个 token 的预测目标,对由离散图像和文本 token 组成的混合模态序列进行建模,从而在不同模态之间进行无缝推理和生成。

在约 10 万亿混合模态 token 上完成预训练之后,Chameleon 表现出了适应广泛的视觉和语言能力,能很好地处理多种不同的下游任务。Chameleon 在生成混合模态长回答任务的表现尤其亮眼,它甚至打败了 Gemini 1.0 Pro 和 GPT-4V 等商用模型。然而对于 Chameleon 这样各种模态会在模型训练的早期混合起来的模型,想要拓展它的能力,需要投入大量算力。

基于以上问题,Meta FAIR 的团队对路由式稀疏架构(routed sparse architecture)进行了一番研究探索,提出了 MoMa:模态感知型专家混合架构。

  • 论文标题:MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
  • 论文地址:https://arxiv.org/pdf/2407.21770

之前已有研究表明,这类架构可以有效地扩展单模态的基础模型的能力,也可以增强多模态对比学习模型的性能。但是,将其用于较早将各种模态融合的模型训练还是一个机遇与挑战并存的课题,还少有人研究。

该团队的研究基于这一洞见:不同模态具有固有的异构性 —— 文本和图像 token 具有不同的信息密度和冗余模式。

在将这些 token 整合成统一的融合架构的同时,该团队也提出通过整合针对具体模态的模块来进一步优化该框架。该团队将这一概念称为模态感知型稀疏性(modality-aware sparsity),简称 MaS;其能让模型更好地捕获每个模态的特征,同时还能通过部分参数共享和注意力机制维持强大的跨模态整合性能。

之前的 VLMo、BEiT-3 和 VL-MoE 等研究已经采用了混合模态专家(MoME/mixture-of-modality-experts)方法来训练视觉 - 语言编码器和掩码式语言建模,来自 FAIR 的研究团队更进一步将 MoE 的可用范围又推进了一步。

模型架构

早期融合

本文提出的新模型基于 Chameleon 的早期融合架构,其做法是在一个统一 Transformer 中,将图像和文本表示成一系列离散 token。Chameleon 的核心是一个基于 Transformer 的模型,其会在图像和文本 token 的组合序列上应用自注意力机制。这能让该模型捕获模态内和模态间的复杂关联。该模型的训练使用的目标是下一 token 预测目标,以自回归方式生成文本和图像 token。

在 Chameleon 中,图像的 token 化方案采用了一个学习型图像分词器,它将基于大小为 8192 的 codebook 将 512 × 512 的图像编码成 1024 个离散 token。对于文本的分词将使用一个词表大小为 65,536 的 BPE 分词器,其中包含图像 token。这种统一的分词方法可以让模型无缝处理图像和文本 token 交织错杂的任意序列。

借助这种方法,新模型继承了表征统一、灵活性好、可扩展性高、支持端到端学习这些优点。

在此基础上(图 1a),为了进一步提升早融合模型的效率和性能,该团队还引入了模态感知型稀疏性技术。

51c大模型~合集29_大模型

宽度扩展:模态感知型混合专家

该团队提出了一种宽度扩展方法:将模态感知型模块稀疏性集成到前向模块中,从而扩展标准混合专家(MoE)架构。

该方法基于这一洞见:不同模态的 token 有各自不同的特征和信息密度。

通过为每个模态构建不同的专家分组,可让模型开发出专门的处理路径,同时维持跨模态的信息整合能力。

图 1b 展示了这种模态感知型专家混合(MoMa)的关键组件。简单来说,先是对各个特定模态的专家进行分组,然后实现分层路由(分为模态感知型路由和模态内路由),最后选择专家。详细过程参见原论文。

总体来说,对于一个输入 token x,MoMa 模块的形式化定义为:

51c大模型~合集29_大模型_02

在 MoMa 计算之后,该团队又进一步使用了残差连接和 Swin Transformer 归一化。

Mixture-of-Depths(MoD)

之前也有研究者探索将稀疏性引入深度维度,他们的做法要么是随机丢弃某些层,要么就是使用可学习的路由器。

具体而言,如下图所示,该团队的做法是在每个 MoD 层中,在混合专家 (MoE)路由之前都集成 MoD,从而确保在模态分离之前,整批数据都能应用 MoD。

51c大模型~合集29_大模型_03

推理

在推理阶段,我们不能直接使用 MoE 的专家选择路由或 MoD 的层选择路由,因为在一批数据中进行 top-k(选择前 k 个)选择会破坏因果关系。

为了保证推理的因果关系,受上述 MoD 论文的启发,研究团队引入了辅助路由器(auxiliary router),其作用是仅基于 token 的隐藏表征预测该 token 被某个专家或层选中的可能性。

升级改造(Upcycling)

在优化表征空间和路由机制方面,对于一个从头开始训练 MoE 架构,存在一个独特的难题。该团队发现:MoE 路由器负责为每个专家划分表征空间。但是,在模型训练的早期阶段,这个表征空间并非最优,这就会导致训练得到的路由函数也是次优的。

为了克服这一局限,他们基于 Komatsuzaki 等人的论文《Sparse upcycling: Training mixture-of-experts from dense checkpoints》提出了一种升级改造方法。

具体来说,首先训练一个每个模态都有一个 FFN 专家的架构。经过一些预先设定的步数之后,再对该模型进行升级改造,具体做法是:将每个特定模态的 FFN 转换成一个专家选择式 MoE 模块,并将每个专家初始化为第一阶段训练的专家。这里会在保留前一阶段的数据加载器状态的同时重置学习率调度器,以确保第二阶段的训练能使用已刷新的数据。

为了促进专家更加专业,该团队还使用了 Gumbel 噪声来增强 MoE 路由函数,从而使得新的路由器能以可微分的方式对专家进行采样。

这种升级改造方法加上 Gumbel-Sigmoid 技术,可克服学习到的路由器的局限性,从而提升新提出的模态感知型稀疏架构的性能。

效率优化

为促进 MoMa 的分布式训练,该团队采用了完全分片式数据并行(FSDP/Fully Sharded Data Parallel)。但是,相比于常规 MoE,该方法存在一些特有的效率难题,包括负载平衡问题和专家执行的效率问题。

对于负载平衡问题,该团队开发了一种平衡的数据混合方法,可让每台 GPU 上的文本 - 图像数据比例与专家比例保持一致。

对于专家执行的效率问题,该团队探索了一些策略,可帮助提升不同模态的专家的执行效率:

  • 将各个模态的专家限制为同构的专家,并禁止将文本 token 路由到图像专家,反之亦然;
  • 使用模块稀疏性(block sparsity)来提升执行效率;
  • 当模态的数量有限时,按顺序运行不同模态的专家。

由于实验中每台 GPU 处理的 token 都足够多,因此即使使用多个分批次矩阵乘法,硬件利用率也不算大问题。因此,该团队认为对于当前规模的实验环境而言,按顺序执行的方法是比较好的选择。

其它优化

为了进一步提升吞吐量,该团队还采用了其它一些优化技术。

其中包括降低梯度通信量、自动化的 GPU 核融合等一般优化操作,研究团队还通过 torch.compile 实现了图优化。

此外,他们还针对 MoMa 开发了一些优化技术,包括跨不同层复用模态 token 索引,以最高效地同步 CPU 和 GPU 之间的设备。

实验

设置

实验中使用的预训练数据集和预处理过程与 Chameleon 一样。为了评估扩展性能,他们训练模型使用的 token 数量超过 1 万亿。

51c大模型~合集29_大模型_04

表 1 给出了密集和稀疏模型的详细配置情况。

不同计算层级的扩展性能

该团队分析了不同模型在不同计算层级上的扩展性能,这些计算层级(FLOPs)相当于三种大小的密集模型:90M、435M 和 1.4B。

实验结果表明,一个稀疏模型仅使用总 FLOPs 的 1/η 就能比肩同等 FLOPs 的密集模型的预训练损失(η 表示预训练加速因子)。

模态解绑

引入特定模态的专家分组可提高不同规模模型的预训练效率,这对图像模态尤其有益。如图 3 所示,使用 1 个图像专家和 1 个文本专家的 moe_1t1i 配置显著优于相应的密集模型。

51c大模型~合集29_大模型_05

扩展每个模态分组的专家数量还能进一步提升模型性能。

混合深度与专家

该团队观察到,当采用 MoE 和 MoD 以及它们的组合形式时,训练损失的收敛速度会得到提升。如图 4 所示,向 moe_1t1i 架构添加 MoD(mod_moe_1t1i)可大幅提升不同模型大小的模型性能。

51c大模型~合集29_大模型_06

此外,在不同的模型大小和模态上,mod_moe_1t1i 能媲美甚至超过 moe_4t4i,这表明在深度维度上引入稀疏性也能有效提升训练效率。

另一方面,还能看到堆叠 MoD 和 MoE 的收益会逐步下降。

扩展专家的数量

为了研究扩展专家数量的影响,该团队进行了进一步的消融实验。他们探索了两种场景:为每种模态分配同等数量的专家(平衡)以及为每种模态分配不同数量的专家(不平衡)。结果见图 5。

51c大模型~合集29_大模型_07

对于平衡的设置,从图 5a 可以看到,随着专家数量提升,训练损失会明显下降。但文本和图像损失表现出了不同的扩展模式。这表明每种模态的固有特性会导致出现不同的稀疏建模行为。

对于不平衡的设置,图 5b 比较了同等专家总数(8)的三种不同配置。可以看到,一个模态的专家越多,模型在该模态上的表现通常就越好。

升级改造

该团队自然也验证了前述的升级改造的效果。图 6 比较了不同模型变体的训练曲线。

51c大模型~合集29_大模型_08

结果表明,升级改造确实能进一步改善模型训练:当第一个阶段有 10k 步时,升级改造能带来 1.2 倍的 FLOPs 收益;而当这个步数为 20k 时,也有 1.16 倍的 FLOPs 收益。

此外,还能观察到,随着训练推进,经过升级改造的模型与从头开始训练的模型之间的性能差距会不断增大。

吞吐量分析

稀疏模型通常不能立即带来性能增益,因为稀疏模型会增加动态性和相关的数据平衡问题。为了量化新提出的方法对训练效率的影响,该团队通常控制变量实验比较了不同架构的训练吞吐量。结果见表 2。


51c大模型~合集29_大模型_09

可以看到,相比于密集模型,基于模态的稀疏性能实现更好的质量 - 吞吐量权衡,并且能随专家数量增长展现出合理的可扩展性。另一方面,尽管 MoD 变体取得了最好的绝对损失,但由于额外的动态性和不平衡性,它们的计算成本往往也更高。

推理时间性能

该团队也评估了模型在留存的语言建模数据和下游任务上的表现。结果见表 3 和 4。

51c大模型~合集29_大模型_10

如表 3 所示,通过使用多个图像专家,1.4B MoMa 1t1i 模型在大多数指标上都优于相应的密集模型,只有在 COCO 和 Flickr 上的图像到文本条件困惑度指标例外。进一步扩展专家数量也能提升性能,其中 1.4B MoE 8x 在图像到文本性能上达到了最佳。

此外,如表 4 所示,1.4B MoE 8x 这个模型还非常擅长文本到文本任务。1.4B MoMa 4t4i 在所有条件图像困惑度指标上表现最佳,而其在大多数基准上的文本困惑度也非常接近 1.4B MoE 8x。

总体而言,在混合文本和图像两种模态的数据上,1.4B MoMa 4t4i 模型的建模结果最好。 开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用~



#Tell Me More!

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

本文第一作者为清华大学计算机系本科生钱成,何秉翔。两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习,大模型驱动智能体,即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全,即将就读清华大学博士。本文通讯作者为从鑫与林衍凯,指导教师为刘知远副教授。

在人工智能迅猛发展的今天,我们不断探索着机器的智能化,但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动,每一句话语,每一个行为,都充斥着意图和情感。但真正的挑战在于:这些隐式的意图如何被智能体捕捉、解析并作出反应?传统的智能体对明确的命令反应迅速,然而在理解复杂的人类隐式意图上,它们往往显得力不从心。

近年来,GPT 和 LLaMA 等语言模型展示了在解决复杂任务上的惊人能力。然而,尽管以它们作为核心的智能体擅长制定策略、执行任务,却很少兼顾鲁棒的用户交互策略。用户给出的任务通常是模糊和简短的,这就需要智能体不仅能理解我们的字面请求,更要能透视我们的隐式意图。

因此,让新一代的智能体落地并为大众所用,需要以人为中心,不仅仅关注于任务执行的精确度,更关注于如何与人类建立起一种更加自然、流畅而富有洞察力的沟通方式。

为了弥补这一缺失,近期来自清华大学、人民大学、以及腾讯的联合团队提出了一种全新的智能体交互设计方案。该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。

以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,文章对完全态的智能体系统进行了全面评估。

结果显示,这套方案在识别模糊用户任务、恢复和总结关键缺失信息、设定精确且必要的智能体执行目标、以及减少冗余工具使用等诸多方面有着突出表现。这一创新的方法,不仅填补了智能体与用户交互的空白,将人类真正置于智能体设计的中心,同时意味着我们正在向着设计更加符合人类意图的智能体的目标迈进一步。

  • 论文标题:Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
  • 论文链接:https://arxiv.org/abs/2402.09205
  • 代码仓库:https://github.com/HBX-hbx/Mistral-Interact
  • 开源模型:https://huggingface.co/hbx/Mistral-Interact
  • 开源数据集:https://huggingface.co/datasets/hbx/IN3


51c大模型~合集29_大模型_11

智能体系统对于模糊任务和清晰任务执行的对比

Intention-in-Interaction 基准测试

当前的智能体基准测试通常假设给定的任务是清晰的,并没有把用户意图理解当作评估的重要方面。鉴于评估指标的不完备性,该工作制定了 Intention-in-Interaction(IN3)基准测试,旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。

51c大模型~合集29_大模型_12

IN3 基准数据的构造过程

如上图所示,基于人类编写的种子任务为 Step 1,模型迭代生成新任务以增强数据集,同时从数据集中采样以作为下一轮生成的新示例(Step 2)。在这种 Self-Instruct 的生成方式后,再对每个任务的模糊度、缺失细节以及每个细节的重要程度和潜在的选项进行人工标注(Step 3)。

Mistral-Interact 训练过程

由于大语言模型处于智能体设计的核心位置,该工作首先进行了一项初步研究,评估当前开源和闭源模型在交互过程中的隐式意图理解能力。

具体地,文章从 IN3 中随机抽取了十个任务,将它们应用于测试 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示这些模型 i)判断任务的模糊度,ii)在任务模糊时询问用户缺失的细节,iii)总结详细的用户任务。

51c大模型~合集29_大模型_13

隐式意图理解初步研究中各个模型的定量与定性结果展示

由结果可见,Mistral 在一定程度上表现更好,但仍然存在对人类意图理解不足的问题。相比之下,GPT-4 在任务模糊度和重要缺失细节方面与人类意图最为接近。同时,初步探索也表明,为了进一步提升智能体在交互中的隐式意图理解能力,单纯的提示工程(prompt engineering)是不够的,有必要以当前开源模型为基础,进一步训练,以达到可以在智能体落地应用的程度。

51c大模型~合集29_大模型_14

训练数据(IN3 对话记录)的构造过程

参照上图,根据 IN3 关于任务模糊度、缺失细节和潜在选项的标注,文章在构建对话记录过程中应用了若干策略(橙色框),其中包括:清晰初始推理链的构造、带有建议选项的询问构造、不同用户回答语气的构造、以及清晰总结推理链的构造。这几种对话构造策略将更好地激发目标模型的询问以及推理能力。

智能体交互能力全面评估

智能体的隐式意图理解能力既可以通过用户交互来直接评估,也可以通过智能体执行下游任务来间接评估。其中,用户交互关注意图理解本身,而任务执行关注意图理解的最终目的,即增强智能体处理任务的能力。

因此,为了全面评估可交互智能体设计,文章将实验分为两个部分:i)指令理解:评估智能体在用户交互期间的意图理解能力;ii)指令执行:评估集成了交互模型后智能体的任务执行表现。

指令理解并不涉及任何实时的智能体执行,因此文章直接评估了不同语言模型在交互过程中的表现,以判断其作为智能体设计中的上游模块的交互能力,结果如下表所示:

51c大模型~合集29_大模型_15

指令理解测试结果,其中箭头代表得分越高 / 越低则能力更强

结果表明,Mistral-Interact 能够更好地理解用户的意图,在判断任务模糊度以及缺失细节的覆盖率等指标上表现最佳,而且能够基于详细的用户意图进行明确而全面的总结。相较于其他开源模型,Mistral-Interact 在询问模糊任务中的缺失细节方面能提供更加合理的选项,询问方式更加友好,并与 GPT-4 的表现不相上下。

在指令执行方面,为了评估隐式意图理解对于智能体任务执行有效性,文章将 Mistral-Interact 作为上游交互模块整合到 XAgent 框架中进行测试。其中,XAgent 可以在诸如网络搜索、代码执行、命令行和文件系统等环境中进行交互。

51c大模型~合集29_大模型_16

指令执行测试结果 (ST 代表 subtask,MS 代表 milestone)

上表呈现了智能体任务执行的定量评估结果,结果表明整合 Mistral-Interact 有助于:i)在执行过程中避免设定不必要的目标,ii)使智能体的执行过程更加符合详细的用户意图,以及 iii)减少不必要的工具调用,促进智能体工具使用效率。

智能体交互案例分析

在指令理解方面,为了进一步展示 Mistral-Interact 在不同对话场景下的鲁棒性,文章还提供了三个案例分析。

51c大模型~合集29_大模型_17

Mistral-Interact 与用户在不同场景下的案例分析

案例 A 展示了不同用户语气和对话风格对 Mistral-Interact 的影响。文章发现,无论用户的回答是简短还是详细,热情还是冷漠,甚至包含拼写错误,Mistral-Interact 都能准确理解并提供适当的回应,证明了其鲁棒性。

在案例 B 测试了当用户表现出不合作的态度时,Mistral-Interact 是否能够继续追问并引导对话回到正轨。结果显示,即使用户回避问题,其仍然能够有效地重新引导对话。

在案例 C 中可以观察到 Mistral-Interact 可以将用户提供的额外信息纳入总结,而这些信息并没有被交互模型明确询问。这表明,当模型的询问无法完全覆盖缺失细节或用户有特定要求时,模型仍然能够合理而全面地总结所有用户意图,从而使其更加用户友好。

在指令执行方面,为了更清晰阐明 Mistral-Interact 的作用,下图中提供了一个比较的案例研究。

51c大模型~合集29_大模型_18

智能体与 Mistral-Interact 交互前后的执行过程的案例研究

根据上图中标记为浅红色的文本,可以发现当用户的目标模糊时,XAgent 无法准确设定精确反映用户需求的子任务。根据标记为紫色的文本,可以发现 XAgent 时常会设置一些不必要的子任务。这些均因为用户的任务过于模糊而无法执行,智能体倾向于虚构一些不必要的细节,从而与用户的真实意图不符。

相比之下,在与 Mistral-Interact 进行积极交互后,明确的任务目标能够让 XAgent 制定更具体的子任务。图中标记为绿色的文本展示了这种一致性。同时,智能体执行流程变得更加简单,工具调用次数也有所减少。所有这些都反映了一个更加高效的智能体执行过程。

结语

我们正站在一个全新的起点,准备见证一个人机协同、相互理解与学习的新篇章。智能体即将不再是冰冷的信息处理器,而是充满同理心的伙伴,它们能够通过细腻的交互体验,深刻理解我们背后可能并没有最初明确表达的需求和愿望。这场以人为中心的智能体设计革命,将揭示出交互中的无限可能性,进而让智能体真正成为我们生活中不可或缺的助力。



#基于欧几里得Transformer的新计算方法

2.5天完成1年的MD计算?DeepMind团队基于欧几里得Transformer的新计算方法

近年来,基于从头算参考计算的机器学习力场 (MLFF) 的开发取得了巨大进展。虽然实现了较低的测试误差,但由于担心在较长的模拟时间范围内会出现不稳定性,MLFF 在分子动力学 (MD) 模拟中的可靠性正面临越来越多的审查。

研究表明,对累积不准确性的稳健性与 MLFF 中使用等变表示之间存在潜在联系,但与这些表示相关的计算成本可能会在实践中限制这种优势。

为了解决这个问题,Google DeepMind、柏林工业大学(TU Berlin)的研究人员提出了一种名为 SO3krates 的 transformer 架构,它将稀疏等变表示(欧几里得变量)与分离不变和等变信息的自注意力机制相结合,从而无需昂贵的张量积。

SO3krates 实现了精确度、稳定性和速度的独特组合,能够对长时间和系统尺度上的物质量子特性进行深入分析。

该研究以「A Euclidean transformer for fast and stable machine learned force fields」为题,于 2024 年 8 月 6 日发布在《Nature Communications》。

背景与挑战性

分子动力学(MD)模拟通过长时间尺度的模拟,可以揭示系统从微观相互作用到宏观性质的演变,其预测精度取决于驱动模拟的原子间力的精确度。传统上,这些力来源于近似的力场(FF)或计算复杂的从头计算电子结构方法。

近年来,机器学习(ML)势能模型通过利用分子系统的统计依赖性,提供了更灵活的预测手段。

然而,研究表明,ML模型在基准数据集上的测试误差与长时间尺度MD模拟中的表现相关性较弱。

为改善外推性能,消息传递神经网络(MPNNs)等复杂架构被开发,特别是等变MPNNs,通过引入张量积捕捉原子间的方向信息,提高了数据的可转移性。

在 SO(3) 等变架构中,卷积是在球谐函数基础上对 SO(3) 旋转群进行的。通过固定架构中球谐函数的最大次数

51c大模型~合集29_大模型_19

,可以避免相关函数空间的指数增长。

科学家已证明最大阶数与准确度、数据效率密切相关,并与 MD 模拟中模型的可靠性相关。然而,SO(3) 卷积的规模为

51c大模型~合集29_大模型_20

,与不变模型相比,这可以将每个构象的预测时间增加多达两个数量级。


这导致了一种必须在准确性、稳定性和速度之间做出妥协的情况,还可能会带来重大的实际问题。必须先解决这些问题,这些模型才能在高通量或广泛的探索任务中发挥作用。

性能强劲的新方法

Google DeepMind、柏林工业大学的研究团队以此为动机,提出了一种欧几里得自注意力(Euclidean self-attention)机制,用原子邻域相对方向的过滤器代替 SO(3) 卷积,从而无需昂贵的张量积即可表示原子相互作用;该方法称为称为 SO3krates。

51c大模型~合集29_大模型_21

图示:SO3krates架构和构建块。(来源:论文)

该解决方案建立在神经网络架构设计和几何深度学习领域的最新进展之上。SO3krates 使用稀疏表示来表示分子几何形状,并将所有卷积响应的投影限制在等变基函数中最相关的不变分量上。

51c大模型~合集29_大模型_22

图示:学习不变量。(来源:论文)

由于球谐函数的正交性,这种投影对应于乘积张量的迹,可以用线性缩放内积来表示。这可以高效地扩展到高阶等变表示,而不会牺牲计算速度和内存成本。

力预测是根据所得的不变能量模型的梯度得出的,该模型代表自然等变的分段线性化。整个过程中,自注意力机制用于分离模型中的不变和等变基础元素。

该团队比较了 SO3krates 模型的与当前最先进的 ML 模型的稳定性和速度,发现该解决方案克服了当前等变 MLFF 的局限性,同时又不损害它们的优势。

研究人员提出的数学公式可以实现高效的等变架构,从而实现可靠稳定的 MD 模拟;与具有相当稳定性和准确性的等变 MPNN 相比,其速度可提高约 30 倍。

为了证明这一点,研究人员仅在几个小时内就对超分子结构运行了精确的纳秒级 MD 模拟,这使他们能够计算出从具有 42 个原子的小肽到具有 370 个原子的纳米结构的结构的收敛速度自相关函数的傅里叶变换。

51c大模型~合集29_大模型_23

图示:结果概述。(来源:论文)

研究人员进一步应用该模型,通过使用最小值跳跃算法研究 10k 最小值,探索二十二碳六烯酸 (DHA) 和 Ac-Ala3-NHMe 的 PES 拓扑结构。

这样的研究需要大约 30M FF 评估,这些评估在几百 K 到 1200 K 之间的温度下进行。使用 DFT 方法,这种分析需要一年以上的计算时间。现有的具有类似预测精度的等变 MLFF 需要运行一个多月才能完成此类分析。

相比之下,该团队仅用 2.5 天就能完成模拟,从而有可能在实际时间尺度上探索数十万个 PES 最小值。

此外,SO3krates 能够检测训练数据中未包含的物理有效最小构象。外推到 PES 未知部分的能力对于将 MLFF 扩展到大型结构至关重要,因为可用的从头算参考数据只能覆盖构象丰富的结构的子区域。

该团队还研究了在网络架构中禁用等方差属性的影响,以更深入地了解其对模型特性及其在 MD 模拟中的可靠性的影响。

研究人员发现,等变性与所得 MD 模拟的稳定性以及更高温度的外推行为有关。能够证明,即使测试误差估计平均相同,等变性也会降低误差分布的扩散。

51c大模型~合集29_大模型_24

图示:计算效率和 MD 稳定性。(来源:论文)

因此,通过等变表示使用方向信息在精神上与经典 ML 理论类似,其中映射到更高的维度可以产生更丰富的特征空间,这些特征空间更容易参数化。

未来的研究

在最近的一系列研究中,提出了旨在降低 SO(3) 卷积计算复杂度的方法。它们可以作为完整 SO(3) 卷积的替代品,而本文介绍的方法可以在消息传递范式中完全避免使用昂贵的 SO(3) 卷积。

这些结果都表明,等变相互作用的优化是一个尚未完全成熟的活跃研究领域,可能提供进一步改进的途径。

51c大模型~合集29_大模型_25

图示:稳定、长时间尺度的 MD 模拟和对更大生物分子的外推。(来源:论文)

虽然该团队的工作,使得使用现代 MLFF 建模范式可以实现稳定的扩展模拟时间尺度,但未来仍需进行优化,以使 MLFF 的适用性更接近传统的经典 FF。

目前,该方向出现了各种有潜力的途径:在当前设计中,EV 仅根据二体相互作用进行定义。通过将原子簇扩展纳入 MP 步骤,可以进一步提高准确性。同时,这可能有助于减少 MP 步骤的数量,从而降低模型的计算复杂度。

另一个尚未讨论的问题是全局效应的适当处理。通过使用低秩近似、可训练的 Ewald 求和或通过以物理启发的方式学习长程校正。当需要外推到更大的系统时,后一种类型的方法尤为重要。

虽然等变模型可以提高局部相互作用的外推能力,但对于超出训练数据中存在的长度尺度或超出模型有效截止值的相互作用,这并不适用。

由于上述方法依赖于局部属性,例如部分电荷、电负性或赫什菲尔德体积,因此可以通过学习 SO3krates 架构的不变特征分支中的相应局部描述符,将它们无缝集成到该团队的方法中。

因此,未来的工作将集中于将多体展开、全局效应和长程相互作用纳入 EV 形式,并旨在进一步提高计算效率,最终以高精度跨越 MD 时间尺度。

论文链接: https://www.nature.com/articles/s41467-024-50620-6

相关内容: https://phys.org/news/2024-08-faster-coupling-ai-fundamental-physics.html