【讲座分享：具身智能与机器人，北邮人工智能学院】

溯源006

已于 2023-06-16 20:16:44 修改

阅读量689

点赞数 3

分类专栏：通用人工智能文章标签：人工智能机器人

于 2023-06-16 20:16:04 首次发布

原文链接：https://www.bilibili.com/video/BV168411c7d6/?vd_source=442e916174c8da191a9d2a81c27503d8

版权

通用人工智能专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文是对北邮人工智能学院郭迪老师一次讲座的记录。视频链接如下：

具身智能与机器人_哔哩哔哩_bilibili

1 概述

如果我们问一个问题，比如：“房间里有没有面包”。我们会有什么反映？

先来看一下chatGPT怎么回答的。他说作为一个人工智能语言模型，我没有感知物理的物体或者环境的能力，所以我不能判断你所在的这个房间是否有bread。我只是一个在我能力范围内提供信息或者回答问题的虚拟助理。如果你正在找面包，你需要在物理上进行搜索或者和你在一个地方的其他人。

假设有个机器人在这里。右边的图是上帝视角，可以看到机器人的行进轨迹，左边是机器人的第一视角的图。走到一个地方，机器人的检测器就会检测到物体，机器人就知道前边有什么东西。然机器人可以在房间不断的做一个探索。直到找到面包，此时停止。然后就回答这个屋子里是有一个面包。

左边chatGPT的回答这是叫做“语言问答”，而右边这种，需要有个个体在物理上进行探索然后才能回答的问题叫做“具身问答”。

我们对有大规模标注数据然后再GPU上训练模型这样的场景比较熟悉了。然后也造就了图像识别、检测、语音识别、翻译等等的性能的大幅度提升。但是其实让机器人有如小孩般的感知和行动能力是一个更困难的事情。

2 具体工作介绍

下面分别从三个方面来介绍一下相关工作：

（1）抓取操作（2）具身场景理解（3）具身任务分配

2.1 抓取操作

这一块不详细介绍，讲者在这一块还有更多的描述。感兴趣的同学可以直接看视频。

2.2 具身场景理解

一般的场景理解，会告诉你图像里的内容。具身场景理解不仅要知道图像里的内容还要知道看到这个图像的机器人应该怎么行动，以达到目的。

具体来讲是这么做的： LSTM生成模型，生成的是动作，给的输入是图像的输入，然后根据当前的输入生成一个动作。直到机器到达一个他认为比较好的位置，然后他就停止了。

这是我们在仿真环境里做的一个例子。一开始拍的图像不好，然后产生动作指令，按照动作指令移动，直到找到好的角度拍摄图像。

直接将其迁移到一个实际的机器人上。指导其找到一个好的拍摄房间全景的角度。

进一步，具身场景图谱（scene graph）。

不仅仅是给文字描述。首先给出第一帧，有检测器，可以检测到里面有什么东西。这个时候可以产生第一个图谱。随着不断对房间进行探索，最后可以建立起这个房间的scene graph。有了这个 scene graph就可以做很多事情了。这里的例子是通过这个scene graph生成一个video caption。其他任务：问答任务，三维重建等。其实现在很多计算机视觉里面的任务，都会通过这个scene graph增加knowledge，然后让效果更加好。

这是训练这个模型的一个例子，一个机器人，在仿真环境里面，然后我们进行不断的探索。每一步的动作董事生成出来的。一边生成动作，一边完善这个场景图谱。每一步的时候，节点是在更新的。根据不同的角度，不断的去更新节点，修正节点。下面的文字也是在不断更新的。场景图谱可以用到更多的视觉任务中。

2.3 具身任务分配

针对多智能体，不再赘述。

溯源006

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【讲座分享：具身智能与机器人，北邮人工智能学院】

如果我们问一个问题，比如：“房间里有没有面包”。我们会有什么反映？先来看一下chatGPT怎么回答的。他说作为一个人工智能语言模型，我没有感知物理的物体或者环境的能力，所以我不能判断你所在的这个房间是否有bread。我只是一个在我能力范围内提供信息或者回答问题的虚拟助理。如果你正在找面包，你需要在物理上进行搜索或者和你在一个地方的其他人。假设有个机器人在这里。右边的图是上帝视角，可以看到机器人的行进轨迹，左边是机器人的第一视角的图。走到一个地方，机器人的检测器就会检测到物体，机器人就知道前边有什么东西。
复制链接

扫一扫

专栏目录