李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_智能系统

介绍

多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据,这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。

为了加速基于智能体的多模态智能研究,我们将“智能体AI”定义为一类交互系统,它们能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生具有无限智能体的有意义的具身行动。特别是,我们探索旨在通过整合外部知识、多感官输入和人类反馈来基于下一具身行动预测改进智能体的系统。我们认为,通过在基于环境的环境中开发具有代理性的AI系统,也可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体AI领域涵盖了多模态交互的更广泛的具身和具有代理性的方面。除了在物理世界中行动和互动的智能体,我们设想一个未来,人们可以轻松地创建任何虚拟现实或模拟场景,并与嵌入虚拟环境中的智能体互动。ffl24

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_智能系统_02

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_模态_03

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_智能系统_04

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_智能系统_05

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_人工智能_06

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_智能系统_07

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_模态_08

李飞飞等14位斯坦福微软大牛-AGENT AI: 综述多模态交互的前沿展望_人工智能_09