2025年2月27日,微软在其官方网站上宣布了一项重大举措,将多模态AI Agent基础模型Magma向公众开源。
相较于传统的Agent,Magma展现出了跨越数字与物理世界的卓越多模态能力,它能够自如地处理图像、视频、文本等多种类型的数据。这意味着,Magma不仅可以被用于自动完成如电商订单下达、天气查询等线上任务,还能在实体机器人的操作、真实象棋对弈的辅助等线下场景中发挥巨大作用。
更为先进的是,Magma内置了心理预测功能,这一创新提升了其对未来视频帧中时空动态的洞察能力。通过精准推测视频中人物或物体的意图与未来行为,Magma为用户带来了更加智能、前瞻性的服务体验。
Magma功能亮点展示
Magma能够成为实体机器人的智慧核心,例如,它能精准地指导机器人将蘑菇放置于盆中。
同样,它也能准确地指示将汉堡放在恰当的位置。
面对品牌辨识的难题,Magma能迅速为你解析物品的品牌信息。
当你与友人共弈象棋,犹豫不决时,Magma可以成为你的得力助手,助你迅速找到制胜策略,仿佛物理世界的“外挂”。
在数字任务处理上,Magma同样表现出色。它能自动为你查询天气情况,并贴心地开启飞行模式。
此外,它还能自动将文件分享给指定的联系人,让你的工作更加高效便捷。
Magma架构简介
Magma模型通过融合视觉与大语言模型的混合架构,实现了强大的多模态能力。其视觉模块采用ConvNeXt架构,能够将输入的图像和视频数据高效编码为一系列离散的tokens。这些tokens不仅捕捉了视觉信息的关键特征,如物体的形状、颜色、位置及其空间关系,还能处理视频中的时间序列信息,从而为模型提供丰富的视觉上下文。
具体而言,在处理高分辨率UI截图时,ConvNeXt能够精确识别界面中的每一个细节,包括微小的图标和复杂的布局;而在处理动态视频时,它能够连贯地追踪画面中的物体运动和场景变化,生成有序的tokens序列,为后续处理奠定坚实基础。这些编码后的视觉tokens与任务描述的语言tokens一同输入到一个仅解码器的大语言模型中,通过结合视觉和语言信息,生成统一的、语义丰富的表示,使模型能够准确理解用户需求并将其与视觉场景关联起来。
Magma模型的自回归解码过程是其实现从多模态理解到行动转化的关键机制。在解码阶段,模型基于输入的视觉和语言tokens序列逐步生成输出。这一过程是自回归的,即模型在生成每个输出token时,都会参考之前生成的内容,从而能够根据输入信息的复杂性动态调整输出,生成合理的动作指令或回答。例如,在一个机器人操作任务中,用户可能给出指令“拿起桌子上的红色苹果并放入篮子中”。Magma模型首先通过视觉编码器处理输入的图像或视频,识别出红色苹果和篮子的位置,随后语言模型将这些视觉信息与任务描述的语言指令结合,生成包含具体动作序列的输出。
SoM与ToM
Set-of-Mark(SoM)作为Magma行动定位的核心,其精髓在于将视觉对象精准地转化为可操作的点或区域,为模型在图像或视频中锁定执行操作的具体坐标提供了强有力的支撑。SoM技术通过巧妙地在图像上勾勒出可操作对象的边界框,并为每个边界框赋予一个独一无二的标识符,这些标识符不仅让模型能够迅速锁定对象的位置,还为其提供了丰富的语义信息。
以UI导航任务为例,SoM技术能够智能地在网页截图中识别并标记出所有可点击的按钮,同时为每个按钮分配一个独特的标识符。当用户向模型发出操作指令时,模型便能依据这些标识符,如同拥有了精准的导航图,迅速定位到目标对象,并生成相应的操作指令,实现用户的意图。
而Trace-of-Mark(ToM)技术,则是Magma行动规划的智慧大脑。它凭借对视频数据中时间信息的敏锐洞察,能够预测对象在未来时间点的位置和状态,为模型规划行动提供了坚实的依据。ToM技术通过在视频中标注对象的运动轨迹,并预测这些轨迹在未来时间点的延伸,不仅帮助模型深入理解了对象的运动模式,还为模型规划未来行动提供了清晰的指引。
在机器人操作任务中,ToM技术的威力得以充分展现。模型能够准确预测机器人手臂的运动轨迹,从而精心规划出一系列动作,确保机器人能够准确无误地完成抓取物体的任务。ToM技术的引入,不仅显著提升了模型的行动规划能力,还增强了模型对时间信息的理解,使模型在执行任务时更加游刃有余,展现出更高的准确性和效率。