视觉语言导航入门必看

视觉语言导航

已于 2024-12-10 21:48:52 修改

阅读量1.9k

点赞数 43

分类专栏： VLN 文章标签：人工智能计算机视觉自然语言处理神经网络

于 2024-12-10 15:34:12 首次发布

本文链接：https://blog.csdn.net/weixin_37990186/article/details/144374308

版权

VLN 专栏收录该内容

93 篇文章

订阅专栏

一. 概述
二. 测试基准
三. 典型模型与开源代码
四. 理论基础
五. 学习社区

一. 概述

视觉语言导航（Vision-Language Navigation, VLN）是一个多学科交叉的研究领域，它涉及到自然语言处理、计算机视觉和机器人导航等多个方面。在这个领域中，研究人员致力于开发能够理解自然语言指令并在复杂环境中进行自主导航的机器人或智能体。

1. 任务介绍

视觉语言导航任务通常依赖于智能体与环境模拟器（如Matterport3D、Habitat等）构建的交互式环境。

模拟器为智能体提供了数据交互接口，根据智能体的状态（例如坐标和朝向）和执行的操作，生成动态的感知信息。

在离散环境下，模拟器由一个连通图 $\mathcal{G} = \{\mathcal{V}, \mathcal{E}\}$ 表示，其中 $\mathcal{V}$ 表示可导航节点的集合， $\mathcal{E}$ 定义了这些节点之间的连接，表示两个节点是否可以通行。智能体配备了RGB摄像头和GPS传感器，并给出了自然语言指令。智能体的任务是按照指令要求，在起始节点出发，在限定的步数内，到达指定的目标节点。

自然语言指令被表示为一个单词序列，记作 $\mathcal{W} = \{w_l\}_{l=1}^{L}$ ，其中 $L$ 是单词的总数。在每个时间步 $t$ ，智能体位于节点 $\mathcal{V}_t$ 并具有姿态信息 $\mathcal{P}_t$ ，观察一组全景RGB图像 $\mathcal{R}_t = \{r_{t,k}\}_{k=1}^{K}$ ，包括 $K$ 个单视图图像。其中包括可导航点，记作 $\mathcal{N}(\mathcal{V}_t) \subset \mathcal{R}_t$ ，可供智能体进行选择。

视觉语言导航模型旨在构建导航决策模型 $\pi$ ，在 $t$ 时刻，该模型能够根据指令 $\mathcal{W}$ 、历史轨迹 $\Gamma = \{\mathcal{V}_1, \mathcal{V}_2, ..., \mathcal{V}_{t-1}\}$ 和当前观察 $\mathcal{V}_t = \{\mathcal{P}_t, \mathcal{R}_t, \mathcal{N}(\mathcal{V}_t)\}$ 来决定下一步动作 $a_t$ ： $\pi (a_t|\mathcal{W}, \mathcal{V}_t, \Gamma) \to a_t$ 。模拟器随后执行智能体的动作并更新环境与智能体的状态 $\Gamma(s_t, a_t) \to s_{t+1}$ 。

在每个时间步 $t$ ，智能体的动作空间 $\mathcal{A}_t$ 包括导航到局部相邻节点 $v_i \in \mathcal{N}(\mathcal{V}_t)$ 的选项、轨迹 $\Gamma$ 中观察到的全局可导航节点、或者在其当前位置停止。在决定停止时，在物体定位场景中，智能体还必须预测全景视图中目标物体的空间位置。

在每个时间步 $t$ ，智能体的动作空间 $\mathcal{A}_t$ 包括导航至局部相邻节点 $v_i \in \mathcal{N}(\mathcal{V}_t)$ 的选项、轨迹 $\Gamma$ 中观察到的全局可导航节点，或者选择在其当前位置停止。在做出停止决定时，特别是在物体定位场景中，智能体还必须预测目标物体在全景视图中的空间位置。

2. 任务类型

从任务类型来看，视觉语言导航任务涵盖了指令导向（如R2R和R4R）、目标导向（如REVERIE和SOON）。

需求导向（如DDN），所有这些任务都要求智能体能够利用语言指令和动态视觉观察来做出实时决策。

指令导向：指令导向的视觉语言导航任务侧重于智能体严格遵循给定的语言指令进行导航。这种任务要求智能体能够理解复杂的自然语言指令，并将其转化为导航动作。例如，一个指令可能是“往前走到海报附近然后右拐进办公室”，智能体需要理解并执行这些动作以到达指定位置。（Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments）
目标导向：目标导向的视觉语言导航任务要求智能体根据给定的目标进行导航。在这种任务中，智能体需要理解目标的语义信息，并在环境中搜索与目标相匹配的物体。例如，智能体可能会收到指令“找到沙发”，然后需要在环境中识别沙发并导航到那里。（Reverie: Remote embodied visual referring expression in real indoor environments）
需求导向：需求导向的视觉语言导航任务是一种更高级的形式，它要求智能体根据用户的抽象需求进行导航。与前两种任务不同，需求导向导航不依赖于特定的物体或目标，而是需要智能体理解用户的需求并找到满足这些需求的物体或位置。例如，如果用户说“我饿了”，智能体需要找到食物或厨房等可以满足用户需求的地方。（Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation）

依据用户与智能体之间的交互轮数，任务可被细分为单轮指令任务和多轮对话式导航任务。

单轮指令任务：

在单轮指令任务中，智能体接收到一个自然语言指令，并且需要在没有进一步交互的情况下执行该指令。这种任务要求智能体能够理解指令的含义，并将其转化为导航动作。例如，智能体可能会接收到指令“走出浴室，左转，通过左侧的门离开房间”，然后智能体必须理解并执行这些动作以到达目的地。

对话式导航任务：

对话式导航任务则涉及到更复杂的交互，智能体可以在导航过程中与用户进行多次对话。在这种任务中，智能体可能无法仅凭初始指令就完全理解用户的意图，需要通过提问来获取更多信息，或者在不确定时请求用户澄清。例如，如果智能体对指令中的某个地标有疑问，它可以询问用户以获得更明确的指导。

3. 场景类型

根据应用场景不同，可以将视觉语言导航分为室内、室外、空中三种场景。

室内场景：

室内视觉语言导航主要关注于家庭或办公环境内的导航。智能体需要理解自然语言指令，并在室内环境中找到正确的路径。室内环境通常较为复杂，包含多个房间和各种家具，因此对智能体的空间理解能力要求较高。例如，Room-to-Room数据集

是专为室内VLN设计的，它提供了大量的自然语言指令和相应的导航路径。

室外场景：

室外视觉语言导航涉及到更开放的环境，如街道、公园等。在这种场景下，智能体不仅需要理解指令，还需要处理更复杂的空间关系和可能的遮挡物。室外环境的动态性，如行人和车辆的移动，也会增加导航的难度。

空中场景：

空中视觉语言导航是一个较新的研究领域，主要针对无人机（UAV）的导航任务。与地面导航不同，空中导航需要考虑飞行高度和更复杂的空间关系。例如，AerialVLN是一个针对无人机的视觉语言导航任务，它要求智能体根据自然语言指令在三维空间中进行导航，这涉及到对城市级场景的理解和操作。

二. 测试基准

1. 模拟器与数据集

模拟器	环境观察	对应数据集	链接
VizDooma	卡通	-	https://vizdoom.cs.put.edu.pl/
House3D	三维渲染	SUNCG	https://github.com/facebookresearch/House3D
AI2THOR	三维渲染	-	http://ai2thor.allenai.org
Gibson	真实光景	2D-3D-S	http://gibsonenv.stanford.edu/
iGibson	真实光景	iGibson	http://gibsonenv.stanford.edu/
Matterport3DSimulator	真实光景	R2R, R4R, REVERIE, SOON	https://github.com/peteanderson80/Matterport3DSimulator
Habitat	真实光景	VLN-CE	https://aihabitat.org/
AirSim	三维渲染	AerialVLN	https://github.com/microsoft/AirSim

2. 数据集简介

VLN数据集提供了自然语言指令 $\mathcal{W}$ 及其相应的真实轨迹 $\hat{\Gamma}$ ，使其适合于监督学习和强化学习。

R2R：Anderson 等人首次提出了在离散室内环境中遵循指令进行导航的任务，即 R2R (Room-to-Room)。R2R 任务基于 Matterport3D 数据集构建，该数据集包含 90 个房屋的真实照片，共计 10,567 张全景图。这些环境被表示为一系列通过边连接的可导航点。在 R2R 任务中，智能体需根据描述路线的语言指令，从指定的初始位置导航至目标位置。智能体必须遵循指令，执行一系列离散动作（如转弯、前进），以到达目标位置，并在到达后执行“停止”动作以完成任务。
R4R：Jain 等人通过将两个相邻的轨迹（尾部到头部）连接起来，扩展了 R2R 任务，从而生成更长的指令和轨迹。这些路径更加依赖于指令的描述，因为它们往往不是起点和终点之间的最短路径。
CVDN：在现实世界的导航中，人们通常使用自然语言进行多轮沟通。Thomason 等人收集了 CVDN 数据集，以模拟真实家庭环境中人与人之间的对话过程，并定义了基于对话历史进行导航并搜索目标的任务。
REVERIE：- 在现实环境下，智能体的导航通常是需求驱动的，经常需要到达指定地点并找到相关物体。因此，Qi 等人和 Zhu 等人分别通过 REVERIE 和 SOON 数据集进一步提出了远程对象定位导航任务。在 REVERIE 数据集中，每个视觉观察的全景图都标记有预定义的对象框，智能体必须在导航路径的终点选择正确的对象。
SOON：而在实际应用中，人类通常给出高层次的目标导向指令，而非详尽的逐步指导。基于这一特点，SOON 数据集提出了一种基于视觉的场景定位目标导航方法，智能体被指示在房屋内寻找详细描述的目标对象。
AerialVLN：为了解决无人机在复杂城市环境中进行导航的问题，AerialVLN 数据集被提出。该数据集包含 10 个城市的 100 个不同的飞行场景，每个场景都由无人机在飞行过程中拍摄的全景图像组成。这些图像被标记为包含多个对象，并且每个对象都与一个自然语言描述相关联。智能体的任务是根据这些描述，在飞行过程中找到并识别相应的对象。

3. 评估指标

评估指标能够为模型的准确性与适应性提供有价值的洞察，涵盖了导航精度、导航效率以及模型对指令遵循程度等多个方面。本文用 $P$ 表示模型的预测路径，用 $R$ 表示参考路径。

路径长度（PL）：从起始位置（ $t = 0$ ）到终止位置（ $t = T$ ）的导航轨迹长度，表示为路径上所有相邻节点之间距离的总和： $\sum_{p_t \in P} d(p_t, p_{t+1})$
导航误差：预测路径终点 $p_T$ 和参考路径终点 $r_T$ 之间的距离： $d(p_T, r_T)$
导航成功率：预测路径终点 $p_T$ 和参考路径终点 $r_T$ 之间的距离不大于3米： $\mathbb{I} \left[ NE(p_T, r_T) \leq d_{th} \right]$
Oracle Success Rate（OSR） ：衡量导航路径上任意点到目标点的距离是否在预定义的阈值范围内：
$\mathbb{I}(\min_{p_t \in P} d(p_t, r_T) \leq d_{th} )$ ，如果路径中任意节点到目标点的最小距离小于或等于阈值，则返回1；否则返回0。
基于路径加权的成功率（ $SP L$ ）：SPL 同时考虑了成功率（ $SR$ ）和路径长度（ $P L$ ），并对过长的（即效率低）路径进行惩罚： $\cdot \frac{|R|}{\max \{|P|, |R|\}}$ 。
长度加权的覆盖分数（ $C L S$ ）：生成路径和参考路径的一致性问题，包括两个部分：路径覆盖率（Path coverage，PC）和路径长度分数（Length score，LS。路径覆盖率的计算公式为：
$\text{PC}(P,R)=\frac{1}{|R|}\sum_{r\in R}\exp\left(-\frac{d(r,P)}{d_{th}}\right)$
式中， $d(r,P)\!=\!\text{min}_{p\in P}d(r,p)$ 是指路径 $P$ 到参考路径节点 $r$ 的最近距离，对于每个节点 $r$ ，其贡献是距离的指数衰减函数（其中 $1/d_{th}$ 是衰减常数）。
路径长度分数则是评价生成路径和参考路径的一致性程度，进而来约束生成路径的长度，其计算公式为：
$\text{LS}(P,R)={\frac{\text{PC}(P,R)\cdot\text{PL}(R)}{\text{PC}(P,R)\cdot\text{PL}(R)+|\text{PC}(P,R)\cdot\text{PL}(R)-\text{PL}(P)}}$
式中，PL代表路径长度，当生成路径长度比预期路径长度更长或更短时，都将受到惩罚。
最终， $C L S$ 可以表示为：
$\text{CLS} = \text{PC}(P,R)\cdot\text{LS}(P,R)$
基于动态时间规整加权成功率（ $n D T W$ ）：通过动态时间弯曲（Dynamic Time Warping， $NT W$ ）评估由成功率加权的预测路径 $P$ 和参考路径 $R$ 的时空相似性，对偏离参考路径的行为进行软性惩罚，并考虑路径节点的顺序。给定两个序列 $R$ 和 $P$ ， $D T W$ 找到一条路径，使其元素间距离和最小： $\min_{\omega \in \Omega} \sum_{(i_k,j_k) \in \omega} \delta(r_{i_k}, p_{j_k})$ ，其中， $\Omega$ 是所有可能的 warping 路径集合， $\delta$ 是距离函数，例如欧氏距离。最优路径 $\omega^\star$ 通过动态规划找到，确保序列间对应元素的累积距离最小。 $n D T W$ （normalized Dynamic Time Warping）通过归一化处理，使得得分在0到1之间：
$\exp \left(-\frac{DTW(R,P)}{|R| \cdot d_{th}}\right)$
其中， $∣ R ∣$ 是参考路径中的节点数， $d_{th}$ 是一个预设的成功距离阈值。该公式首先计算两个序列之间的 $D T W$ 距离，然后将这个距离通过路径长度和阈值进行归一化处理，最后通过负指数转换，分数越高表示相似度越大。

在目标导向的导航任务中，还要评估成功找到目标物体的准确率：

远程定位成功率（Remote Grounding Success Rate， $RGS$ ）：智能体定位到与目标语义标签相对应的实例时，才视为成功。
长度加权的远程定位成功率（ $RGSP L$ ）：综合考虑远程定位成功的效率与经历的路径长度：
$\cdot \frac{|R|}{\max \{|P|, |R|\}}$

三. 典型模型与开源代码

1. 传统Seq2seq方法

传统Seq2seq方法使用基于注意力机制的 LSTM 的序列到序列模型, 并结合 “学生自学”的训练方法, 对于先前的分布采用动作输出序列预测下一步动作,使用交叉熵损失函数, 学习标注数据的特征信息。

Following High-level Navigation Instructions on a Simulated Quadcopter with Imitation Learning (https://github.com/lil-lab/drif)

2. 基于数据增强方法

视觉语言导航是根据真实场景下的照片所构成的仿真环境和人工指令, 进行一系列推理的过程.

专业人员标注的指令不仅成本高, 且数量十分有限。因此, 数据稀缺是视觉语言导航中的先天问题,不仅使得学习跨模态匹配更加困难, 还在很大程度上限制了模型的性能。当前很多领域的研究已经证明了数据增强的有效性, 特别是提升模型的性能有很大帮助。

Speaker-Follower Models for Vision-and-Language Navigation (http://ronghanghu.com/speaker_follower)

3. 基于辅助目标方法

辅助推理任务对于提高视觉语言导航任务中智能体的泛化能力和鲁棒性至关重要，它们通过提供额外的训练信号来增强模型对环境的理解，使其能够更好地利用语义信息进行决策，从而提升导航准确性和效率。

Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks (no public code)

Self-Monitoring Navigation Agent via Auxiliary Progress Estimation (https://github.com/chihyaoma/selfmonitoring-agent)

4. 基于拓扑图方法

拓扑图在视觉语言导航中至关重要，它支持全局路径规划，提高探索效率，增强环境记忆，并促进自然语言指令与视觉场景的有效对接，使智能体能在复杂环境中准确导航至目标位置。

Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation (https://cshizhe.github.io/projects/vln_duet.html)

5. 基于大模型方法

大模型能处理多模态输入，执行零样本学习，展现高级规划和推理能力。这些模型通过理解复杂的导航指令和环境，提供强大的决策支持，增强任务的泛化性，并能生成高质量的导航指令，从而提升导航性能和可解释性。

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models (https://github.com/GengzeZhou/NavGPT)

四. 理论基础

1. 神经网络

在视觉语言导航（Visual Language Navigation, VLN）中，神经网络模型是处理视觉和语言信息并指导导航决策的核心。

感知机：感知机是一种简单的线性二分类模型，它通过一个线性函数将输入映射到输出，然后使用阈值函数进行分类。

全连接网络（Fully Connected Networks, FCNs）：由多个全连接层组成，每一层都与前一层的所有神经元相连，详情参考 https://blog.csdn.net/weixin_60737527/article/details/125469221

循环神经网络（Recurrent Neural Network, RNN）：能够处理序列数据，通过递归地更新其内部状态来捕捉时间依赖性。在VLN中，RNNs可以用来处理语言指令序列，理解指令的时序依赖关系。

长短时记忆网络（Long Short-Term Memory，LSTM）：LSTM是一种特殊的RNN，设计用来解决传统RNN在处理长序列时的梯度消失或梯度爆炸问题。LSTM通过引入门控机制（输入门、遗忘门、输出门）来控制信息的流动，从而能够学习到长距离的依赖关系。
门控循环单元（Gated Recurrent Unit，GRU）：GRU是LSTM的一个简化版本，它将LSTM中的三个门控合并为两个（更新门和重置门），并且合并了细胞状态和隐藏状态。GRU在某些情况下可以与LSTM相媲美，但参数更少，计算效率更高。RNN、LSTM和GRU的结构对比见下图，详情参考 https://blog.csdn.net/sinat_28015305/article/details/109355828

卷积神经网络（Convolutional Neural Network, CNN）：通过卷积层来提取图像的局部特征，并通过池化层减少参数数量和计算复杂度，详情参考 https://blog.csdn.net/AI_dataloads/article/details/133250229

Transformer：Transformer是一种基于自注意力机制的模型，由Vaswani等人在2017年提出，它能够处理序列数据，并且能够捕捉序列中的长距离依赖关系，详情参考 https://blog.csdn.net/benzhujie1245com/article/details/117173090

2. 模型训练

模型训练是让神经网络学习如何从输入数据中做出正确决策的过程。

模仿学习：在VLN中，模仿学习通常涉及让模型观察专家如何在给定指令下导航，然后学习模仿这些行为。这种方法依赖于高质量的示范数据。交叉熵损失（Cross-Entropy Loss）是分类问题中最常用的损失函数之一。在VLN中，它通常用于衡量模型输出的概率分布与目标标签的概率分布之间的差异。对于多类别分类，交叉熵损失可以表示为：
$-\sum_{i} y_i \log(p_i)$ 其中 $y_i$ 是目标类别的独热编码， $p_i$ 是模型预测的概率分布。
强化学习：强化学习通过与环境的交互来学习最优策略。在VLN中，模型会根据奖励信号来学习如何在给定指令下导航。这种方法允许模型探索不同的策略，并从中学习。在VLN的强化学习设置中，损失函数可能包括策略梯度损失，它基于奖励信号来更新策略网络的权重。
辅助监督学习：自监督学习是一种无监督学习方法，它利用数据本身的结构来生成伪标签，从而训练模型。在VLN中，自监督学习可以用来学习视觉和语言的表示，而不需要大量的标注数据，广泛应用于模型的预训练过程。

3. 工具和框架

PyTorch：PyTorch是一个流行的开源机器学习库，它提供了强大的GPU加速的张量计算能力，以及构建深度学习模型的动态计算图。在VLN中，PyTorch可以用于构建和训练复杂的神经网络模型。
Transformers：Transformers是一个开源库，它提供了预训练的Transformer模型，如BERT、GPT等，以及用于构建和训练这些模型的工具。在VLN中，Transformers可以用于处理语言指令，提取语义信息。

五. 学习社区

1. 综述调研

University of California：Jing Gu, Eliana Stefani, Qi Wu, Jesse Thomason, and Xin Wang. 2022. Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7606–7623, Dublin, Ireland. Association for Computational Linguistics. https://github.com/eric-ai-lab/awesome-vision-language-navigation
国防科技大学系统仿真工程系：Wu, W., Chang, T., Li, X., Yin, Q., & Hu, Y. (2024). Vision-language navigation: a survey and taxonomy. Neural Computing and Applications, 36(7), 3291-3316.
中科院自动化所：司马双霖, 黄岩, 何科技, 等. 视觉语言导航研究进展[J]. 自动化学报, 2023, 49(1): 1-14.
Michigan State University：Yue Zhang1, Ziqiao Ma, Jialu Li, Yanyuan Qiao, Zun Wang. Vision-and-Language Navigation Today and Tomorrow A Survey in the Era of Foundation Models[J]. arXiv, 2024.
香港中文大学计算机科学及工程学系：Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, Irwin King. A Survey on Vision-Language-Action Models for Embodied AI[J].arXiv, 2024.
中山大学：Yang Liu, Weixing Chen, Yongjie Bai, Guanbin Li, Wen Gao. Aligning Cyber Space with Physical World A Comprehensive Survey on Embodied AI. Sun Yat-sen University[J].arXiv, 2024. https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List
华东师范大学： Haotian Pan, Shibo Huang, Jian Yang. Recent Advances in Robot Navigation via Large Language Models: A Review[J]. arXiv, 2024.
西北工业大学计算机学院： Jiaqi Wang, Zihao Wu, Yiwei Li. Large Language Models for Robotics: Opportunities, Challenges, and Perspectives[J]. arXiv, 2024.

2. 会议与论坛

CAAl Embodied Al（中国人工智能学会具身智能专委会，公众号同名）：就具身智能的基础问题、学术前沿学科交叉等内容开展学术交流和战略研究，促进国内学者间的了解与合作，推动国内具身智能领域研究发展，提升我国具身智能研究在国际学术的影响力。
启智社区（公众号：OpenI启智社区）：是一个开放、共享、创新的人工智能社区，致力于推动人工智能技术的普及与发展。启智社区提供了一系列人工智能领域的资源和工具，包括深度学习框架、自然语言处理工具、计算机视觉工具等。启智社区还定期举办人工智能领域的研讨会和活动，为人工智能领域的学者和从业者提供一个交流和学习的平台。
具身智能之心：是一个专注于具身智能领域的公众号，它提供了丰富的资源和信息，包括国内外高校具身智能实验室的汇总、具身智能领域的最新研究进展、权威赛事结果速递、具身智能工具的深度测评，以及具身智能时事速递等内容。
具身智能大会：
- 2024具身智能大会：由36氪主办，于2024年9月26日至27日在上海举办。大会探讨了AI技术的最新进展、具身智能创新应用案例等，并发布了“2024具身智能创新应用案例”。
- 中国具身智能大会（CEAI 2024）：由中国人工智能学会主办，于2024年3月29日至31日在上海徐汇区西岸智塔召开。大会旨在推动学术分享与交流、产业合作与互动，提升具身智能技术的研究与应用水平。
- 百度云智大会“具身智能专题论坛”：于2024年9月25日在北京中关村国际创新中心举办，讨论了具身智能的总体发展情况、关键技术问题和企业实践。
- 中国科学技术协会：在2024年3月30日至31日，中国科学技术协会举办了中国具身智能大会，聚焦“具身共生，智塑未来”主题，促进了学术和产业界的交流。
视频公开课
- VALSE (Visualization and Language SEminar)（b站账号VALSE_Webinar）：定期举办研讨会和活动，涉及视觉和语言导航的研究。其中包括吴琦副教授对视觉语言导航的入门介绍。 https://www.bilibili.com/video/BV13g41157yL/?vd_source=e8686347821530011e08aeb1518d49a4
- 智源社区青源Talk：智源社区的青源Talk是一个由智源研究院发起的学术交流活动，旨在为从事人工智能及相关学科研究的海内外青年科学家提供一个宽松、活跃的直接交流平台，鼓励青年科学家之间的合作，促进学科交叉，提出具有引领作用的原创思想，开创新的科学前沿。https://event.baai.ac.cn/activities/697

3. 知名实验室

北京大学具身感知与交互实验室（EPIC）：该实验室的研究目标是通过发展具身技能及具身多模态大模型，推进通用具身智能的实现。这包括在三维复杂环境中，使机器人具备感知、决策和执行的能力。实验室重点关注具身机器人在三维复杂环境中的感知和交互问题，研究内容涵盖物体抓取、功能性操控、灵巧操作及寻物导航等。
鹏城实验室多智能体与具身智能研究所：该研究所以人工智能前沿技术探索、以及原创技术引领产业发展为导向，重点突破智能体视角下的多模态感知与生成、智能体任务生成与规划、多智能体的通讯协作与联合决策、具身智能体的控制与人机共融、智能体评测机制与体系等几大方向开展研究。相关课题涵盖从基础理论到实际应用的全方位内容，旨在通过领域合作研究，解决现实世界中的复杂智能体问题，支撑智能制造、工业物联网、无人自主系统、机器人系统在内的多个场景的规模化产业应用。
西湖大学的机器智能实验室（MiLAB）：由王东林副教授创立，研究方向主要集中在机器人学习领域，尤其是深度强化学习、深度元学习理论、机器人行为智能等，致力于通过机器学习算法提高机器人的灵活性、适应性和自主学习能力。
国防科技大学系统仿真工程系：是中国仿真学会建模与仿真标准化技术专业委员会主任单位，研究成果曾获得两次国家科技进步一等奖，多次军队科技进步一、二等奖。该团队致力于构建智能化的军事模拟训练系统，实现受训人员与构造兵力（具身智能体）之间虚实融合、人机一体、智能增强的交互方式，目的在于提升受训人员的沉浸感，加强军事训练的效率。所属具身智能团队在视觉语言导航、多模态情感推理、视觉定位等方向发表高水平学术论文多篇，积累了雄厚的技术经验。
上海交通大学智能机器人与机器视觉实验室（IRMV）：该实验室的研究目标是为具有挑战性的非结构化环境下的自主机器人和人工智能智能开发强大的机器视觉算法。为此，围绕视觉伺服、自动驾驶、软体机器人、无人机、医疗机器人、强化学习控制、多机器人控制和大规模调度和机器视觉项目等课题进行探索和研究。
复旦大学智能人机交互实验室（MemX）：该实验室定义了大语言模型与智能可穿戴技术相融合的人机交互新范式，开发了MemX，是世界上首个智能眼镜与大语言模型（LLM）相结合的可穿戴AGI。该实验室致力于实现以人为中心的通用智能可穿戴系统，研究重点包括移动端视觉-语言模型、个性化AGI、低功耗深度学习技术、智能可穿戴设备设计等。
复旦智能感知与无人系统实验室：该实验室在机器直觉、人机物三元融合智能等新一代人工智能理论、智能感知与人机交互、计算机视觉与行为分析、数字孪生与虚拟仿真、智能计算与智能芯片、智能驾驶与智慧医疗等领域开展创新研究。
中山大学人机物智能融合实验室（HCP）：该实验室围绕“人工智能前沿技术与产业化”布局研究方向与课题，并深入应用场景打造产品原型，输出大量原创技术及孵化创业团队。在多模态认知计算、机器人与嵌入式系统、元宇宙与数字人、可控内容生成等领域开展体系化研究。
中科院智能信息处理重点实验室：该实验室的定位于探索机器感知与认知的机理、理论、方法、技术，开展基础性研究以及相关的应用基础性研究，提出新的概念与模型，解决核心技术问题，并构建相应的系统。所属视觉信息处理与学习研究组专注于人脸识别、手势识别、多模态生物特征、视觉建模和场景理解、多媒体计算与多模态智能、基于视觉的情感计算等。