文 / Google Research 软件工程师 Anthony Francis 和高级研究员 Alexander Toshev
在过去十年里,得益于规模化的基准,如可进行图像分类的 ImageNet 或用于物体检测的 COCO,计算机视觉的发展突飞猛进,这些基准不仅能为计算机视觉提供大量的数据集,同时还提出了有关模型评估的标准。然而,这些传统的基准仅可用于评估重点关注感知的被动型任务,但是近期的计算机视觉研究面临的大多是主动型任务,在这类任务中,机器人不仅要感知环境,还要在感知后做出相应行动(通常我们将其称为“Embodied AI”)。
图像分类
https://paperswithcode.com/task/image-classificationCOCO
https://cocodataset.org/#homeEmbodied AI
https://arxiv.org/abs/2103.04918
在 CVPR 2020 上由 Google 联合举办的首届 Embodied AI 研讨会中,主办方展示了几个有关主动型任务的基准挑战赛,其中包括由斯坦福大学和 Google 联合提出的 iGibson Sim2Real 挑战赛,该挑战赛的目的是在真实环境下,测试在逼真的模拟环境中训练的导航策略。挑战赛为开源性质,社区可借此在模拟环境中训练策略,然后在可重复的现实导航实验中运行这些策略,从而评估“模拟与实际的差距”,即模拟环境和现实世界中存在的差异。许多研究团队都在疫情期间提交了解决方案,挑战组织者能够在真实的机器人上安全运行这些解决方案,同时优胜者在线上的研讨会中介绍了他们的解决方案。
首届 Embodied AI 研讨会
https://embodied-ai.org/cvpr2020iGibson Sim2Real 挑战赛
http://svl.stanford.edu/igibson/challenge2020.html解决方案
https://youtu.be/0BvUSjcc0jw
今年,斯坦福大学和 Google 自豪地宣布了全新的 iGibson 挑战赛,主题是交互式导航和社交导航,这是在 CVPR 2021 第二届 Embodied AI 研讨会中推出的 10 大主动视觉挑战赛之一。今年的