Look, Listen, and Act: Towards Audio-Visual Embodied Navigation(2020)

 看、听和行动:面向视听体现的导航(2020)

摘要

移动智能代理的一个关键能力是在一个环境中整合来自多个感官输入的证据,并做出一系列动作来实现其目标。

在本文中,我们试图探讨视听嵌入式导航问题,即在仅给定原始的以自我为中心的视觉和听觉感官数据的情况下,规划从场景中随机起始位置到室内环境中声源的最短路径的任务

为了完成这项任务,代理需要学习各种模式,即将音频信号与视觉环境相关联

在这里,我们描述了一种利用视觉和音频证据的视听嵌入式导航方法。

我们的解决方案基于三个关键思想:一个构建环境空间记忆的视觉感知映射器模块一个从代理推断声源相对位置的声音感知模块,以及一个动态路径规划器,该规划器基于视听观察和环境空间记忆规划一系列动作,以导航到目标

在使用模拟多模式环境的新收集的视听室数据集上的实验结果证明了我们的方法在多个竞争基线上的有效性。

研究内容

我们人类通过整合多种感官输入感知和导航世界,包括但不限于声音和视觉表示。

在这项工作中,我们的目标是建立一个机器模型,以实现视听场景分析中的人类能力

特别是,我们关注的是一个未被探索的问题:如何教导配备有摄像头和麦克风的智能代理与环境交互并导航到声源。这项任务比理解静态图像更复杂、更具挑战性。我们称之为视听嵌入式导航。为了在环境中导航,代理必须从多个感官观察中依次做出决策

 图1:所提出的视听体现导航的图示。在给定声源的情况下,代理感知并将其与视觉环境联系起来,以便导航到目标。

图1说明了视听体现导航问题的一个示例。

代理从室内环境随机启动,并提供声音脉冲(例如,电话铃声)。

然后,代理需要找出从其起始位置导航到声源(目标位置)的最短轨迹。

为了完成这项任务,代理必须将声音与视觉环境联系起来,同时将原始感官输入映射到路径规划动作

这项任务非常具有挑战性,因为它本质上要求代理对其感知到的信号的因果效应进行反向工程。它不仅要了解视觉环境,还要了解潜在声源的原因。如果声源位于不同的房间,代理还必须学习如何移动到另一个房间。这项任务的进展将促进家庭机器人的许多实际应用。

例如,声源搜索能力可以帮助机器人帮助人类找到手机或关闭水龙头。我们通过了解人类如何完成这项任务来解决这个问题

想象一下,用户如何在一个新颖的环境中寻找声源?

他/她首先了解位置、周围环境,并估计到声源的距离和方向。当他/她四处走动时,房间布局以及他/她对声音和房间的记忆在他/她为未来行动做出决策时也起着至关重要的作用。

为此,在本文中,我们设计了一个视听网络,让机器代理模拟我们人类在现实生活中使用的导航机制

我们系统地研究了两种情况:1、探索与行动和2、不探索。

在第一种设置中,在我们发出警报之前,允许代理在发出声音之前探索一定步骤的环境;因此,它可以通过探索过程中的视觉观察建立一个不完整的房间空间记忆,并可以在解决后续导航任务时引用此内部表示。

在第二种设置中,代理必须在导航期间构建动态空间地图。当智能体执行一项类似于人类的搜索声源任务时,智能体必须首先推断声源的相对位置,然后根据其空间记忆和视觉-音频观察,采取顺序动作向声源移动。它还可以在每个时间步更新其空间记忆。

提出的方法&模型架构

在本节中,我们将介绍我们的视听嵌入式导航算法。

如图2所示,它由三个组件组成:视觉感知映射器、音频感知模块和动态路径规划器

在尝试处理视觉-音频体现的导航任务时,代理可以使用视觉感知映射器从探索阶段构建的空间记忆中检索,或者使用导航期间估计的占用地图来构建环境的部分2D空间地图(带边的图)。

之后,代理利用声音感知模块估计声源与其当前位置的方向和距离

最后,智能体计划根据视觉和声音感知模块以及局部空间地图的推理结果,找到达到目标的最短可能路径。在

导航过程中,动态规划器还可以根据任何新的视觉和音频观察更新估计的目标位置以及代理的导航模型

A、 视觉感知映射器

a) 探索和行动视觉映射器:基于探索的视觉映射器由空间记忆非参数检索模型组成

在探索过程中,我们使用基于键值的空间记忆网络[41]对代理访问的环境进行编码

视觉观察(Visual observation)存储在键部分,而元数据(meta-data)(例如,位置坐标和代理采取的行动)存储在值部分。

具体而言,我们将每个第一人称视图RGB图像通过图像网预训练的ConvNet模型,ResNet,以提取视觉特征向量,然后进行l2归一化。

视觉观察的每个特征向量和代理的对应坐标和方向形成一个键值对(图3(a))。

在面向目标的导航阶段我们使用相同的特征提取管道来获得从代理的第一人称视图中提取的查询特征向量

然后对空间记忆(spatial memory)的键执行非参数检索步骤返回在余弦距离下最靠近查询的前三个记忆插槽。我们平均记忆的坐标去估计代理的位置

请注意,在我们的实验中,我们强制执行代理的起始位置与探索位置没有重叠,因此代理在早期导航阶段的定位具有很大的不确定性。

 图2:在导航期间,代理使用视觉感知模块定位自身,使用声音感知模块估计声源位置。最后,代理将估计与探索期间构建的局部图连接起来,并规划实现目标的路径。

 图3:用于基于探索和行动和非探索的导航的空间记忆。

B、 声音感知模块

由于人类可以从智力上推断声音位置,因此我们引入了一个声音感知模块,用于估计目标的坐标,即声源在我们环境中的位置

为了使网络易于学习,我们使用相对位置来估计目标的坐标。我们将网格世界中的相对位置定义如下。

从代理角度来看,音频源的相对位置由(x,y)表示,表示音频源位于代理右侧x米处,代理前面y米处。

因此,可以通过联合考虑代理的方向以及声源 和 代理的绝对坐标来计算相对位置。在绝对坐标系中,东轴为正x轴,北轴为正y轴。假设声源和代理在网格世界中的绝对坐标分别为(16,18)和(4,8),如果代理朝向北方,则声源的相对位置为(12,10)。如果代理面向西方,则声源的相对位置变为(10,-12)。

我们通过使用两个训练公寓中所有录制的音频片段来收集训练数据。为了对立体声进行预处理,我们首先将声音重新采样到16Hz,然后通过短时傅立叶变换(STFT)将其转换为频谱图。我们将谱图输入一个五层卷积网络。

训练目标是估计相对于代理的相对声音位置

具体而言,我们以有监督的方式 训练 具有均方误差(MSE)损失的声音感知模块。可以根据相对位置和代理的坐标计算目标的绝对坐标。声音感知模块还包含噪音,因为房间的布局和表面材料会影响声音。

我们还训练一个单独的声音分类模型,以确定代理是否达到目标;如果是这样,它将采取停止操作

  1. 动态路径规划器

文章贡献

我们的工作做出了以下贡献:

•我们构建了一个多模式导航环境以促进视听嵌入式导航的研究。该环境包含相当复杂的公寓,并有一个遵守某些物理定律的集成声音模块。

•我们提出了一个视听室(VAR: Visual-Audio Room)基准,以系统地评估多模式导航代理的性能。

•我们提出了一个视听嵌入式导航框架,并将其与若干竞争基线进行了对比。

补充知识

  1. Target-driven Navigation (目标驱动导航)

早期的工作通过使用SLAM构建场景地图,然后在此地图中规划路径来解决导航任务[3]。最近,基于深度学习的方法被用于直接从原始感官数据规划行动。Zhu等人[4]研究了一种基于深度RL的反应式导航方法,以在离散化3D环境中找到目标对象的图片。Gupta等人[5]学习通过地图绘制器和规划器导航。Sadeghi等人[6]研究了一种RL方法,该方法可以仅使用模拟数据来教导代理在真实环境中飞行。Mirowski等人[7]通过与辅助任务(如环路闭合检测和来自RGB的深度估计)联合训练来改善导航结果。Brahmbhatt等人[8]探索了一种CNN架构,用街景图像导航大城市。Wu等人[9]在第一人称射击游戏环境中将深度RL与课程学习相结合。Yang等人[10]提出利用语义先验改进视觉导航。McLeod等人[11]利用过去的经验改进未来机器人在动态未知环境中的导航。Katyal等人[12]使用生成网络预测未来机器人运动的占用地图表示。Mousavian等人[13]演示了在目标驱动的视觉导航中使用语义分割和检测掩码。萨维诺夫等人[14]的工作在导航中使用记忆方面对我们很有启发。与他们的拓扑图记忆不同,我们使用键值结构来更好地捕捉我们的代理关于环境的内部知识的不完整性质,并为非探索设置引入动态空间记忆

在基于视觉语言的具体导航[15]、[16]、[17]、[18]方面也有大量工作,这些导航直接从语言指令和视觉观察映射到动作。

与所有这些方法相比,嵌入式视听导航任务的目标是找到声源,因此需要代理整合视觉和声学线索来规划一系列动作。与我们的工作同时,Chen等人[19]还提出了在栖息地平台上进行视听体现导航的任务[20]。

  1. Sound Localization (声音定位)

声音定位的研究问题已经研究了几十年,其目的是识别视频中哪些区域发出声音。现有方法分为两大类:基于计算的方法和基于学习的方法。早期工作使用高斯过程模型[21]、子空间方法[22]、典型相关分析[23]、手工运动[24]和分割[25]测量像素和声音之间的相关性。

最近,研究人员提议训练一个深度神经网络来观看和聆听许多未标记的视频,以定位发出声音的对象[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]。这种方法解决了在视频上定位区域的任务

相反,我们的目标是找到虚拟环境中可能不在视线范围内的声源。我们的工作还与声源定位的基于声学的方法相关[36]、[37]、[38]。它们通常需要特殊设备(例如麦克风阵列)来记录声音。我们的工作还不止于此,因为移动代理需要进一步将声音定位的结果与路径规划的视觉环境联系起来

环境

我们在AI2-THOR平台[39]上构建了一个多模式虚拟环境,其中包含一组使用Unity游戏引擎构建的场景。我们进一步将空间音频软件开发工具包共振音频API[40]整合到Unity游戏引擎中,以支持视听嵌入式导航任务。配备摄像头和麦克风的代理可以利用两种不同的感知模式(以自我为中心的RGB图像和声音)感知和导航场景。

A、 场景

AI2-THOR平台提供接近照片的真实室内场景。它包含四个类别的120个场景:厨房、卧室、客厅和浴室。每个房间类别包含30个具有不同视觉外观的房间。由于AI2-THOR中的房间相互隔离,因此对于区域目标导航任务来说,这些房间不够具有挑战性。如图1所示,我们将几个房间手动连接到多房间公寓中。我们为这项工作总共建造了七套公寓。类似于Zhu等人[4],我们还将公寓离散化为网格世界,以便于定量评估。特别是,每个网格平方米为0.5×0.5平方米。每个公寓总共大约有150到200个网格单元。

B、 声音

声学引擎使用共振音频API实现。该空间音频SDK可以在虚拟环境中创建高保真的空间声音,并支持根据对象和房屋的几何结构进行声射线跟踪。共振音频API还支持通过将可视材质映射到具有真实频率相关声音混响特性的声学材质,模拟声波如何与各种几何形状和不同材质的对象交互。基于双耳时间差、双耳电平差和频谱效应,还可以精确模拟声波与人耳的相互作用。配备共振音频API的场景产生了声音来自虚拟世界中特定位置的错觉。因此,我们可以使用此模块为代理提供立体声帧。在我们的实验环境中,我们主要考虑连续声源(例如铃声和警报)。

C、 问题设置

我们考虑视觉-音频嵌入式导航任务中的两个问题设置:探索和行动,以及寻找声源的非探索。

在第一种情况下,我们让代理与环境进行两个阶段的交互,其精神类似于Savinov等人[14]中的探索设置:探索和目标导向导航。在探索阶段,代理在环境中随机行走,直到其轨迹长度达到给定的预算。这种探索经验可用于为后续目标导向导航任务构建环境的内部世界模型。

在第二种设置中,代理必须在朝向目标导航时同时构建环境的空间记忆。在测试阶段,我们随机选择代理的起始位置和声源的目标位置。在每个时间步,代理对环境进行以自我为中心的视觉观察和声音观察,然后从集合a中绘制动作。动作集合a包括以下内容:向后移动、向前移动、向左旋转、向右旋转和停止。

实验

在本节中,我们首先描述了我们为声源搜索视听嵌入式导航任务创建的数据集和环境,然后展示了我们的方法相对于几个竞争基线的优势。

A、 视听室数据集

为了系统地评估多模态导航性能并促进这一研究方向的未来研究,我们收集了一个新的视听室(VAR)基准。我们的最终目标是通过融合视觉和音频观察,使机器人能够在室内环境中导航。由于用物理机器人进行彻底的受控实验非常具有挑战性,我们转而使用建立在AIThor平台上的3D模拟环境[4]。实验中使用了七套公寓。我们把他们分成两个公寓进行训练,五个公寓进行测试。我们考虑三种录音类型:铃声、警报和时钟点击作为工作中的声源。

为了生成导航数据,我们在七个公寓的所有网格上预提取四个方向的第一人称视图RGB图像。对于训练公寓,我们随机选取10个位置放置声源,然后记录代理在房间中所有位置的四个方向上听到的声音。对于五个测试单元,我们选择五个网格位置放置声源,并记录代理在所有位置听到的声音。我们总共收集了3728幅RGB图像,并记录了75720个音频片段。

B、 实验装置

C、 基线

我们考虑七种基线评估方法。

Random Walk。这是导航任务最简单的启发式方法。代理在每个时间步从动作空间随机采样动作。

 Greedy Search (A)。这是一个只有声音的基线。代理仅使用声音感知模块在环境中导航。代理贪婪地朝着声源移动,没有观察公寓的结构和布局

A3C(V)[45]。异步advantage actor critic(A3C)是一种先进的基于深度RL的导航方法。这是一个面向目标的、只有视觉的导航基线,没有记忆。

A3C(V+A)。这是一个面向目标的、无记忆的视听导航基线。在我们的设置中,A3C模型的输入是当前状态的视听表示。为了公平比较,我们将从我们方法中使用的视觉和声音感知网络中提取的特征表示连接起来。

•A3C(V+A+Mapper)。在此设置中,A3C模型的输入是当前状态的视听表示,以及我们基于非探索的方法中使用的显式2D占用地图。自上而下的占有率图与视听表示连接。

•A3C(V+A+M)。[14]. 与Savinov等人[14]中使用的基线类似,我们还实现了配备LSTM内存的A3C,作为我们任务的基线。首先,代理在没有给定目标的情况下,在探索模式下以相同数量的随机行走步骤导航环境。达到目标没有回报(奖励)。在测试时,我们将探索序列提供给LSTM代理,然后让它执行不重置LSTM状态的目标定向导航。我们期望LSTM模块可以隐式地构建它们的内部表示。

•A3C(V+A+M+Mapper。我们进一步结合外显记忆和内隐记忆来训练A3C。

D、 结果

表一总结了五个测试单元中三种不同声源的结果。所提出的视听代理在所有度量中的性能优于所有基线。在探索和行动环境中,我们的模型(w/Exp.)对于每个声源的平均成功率超过65%,几乎是最佳性能基线的两倍。

 表一:不同视听导航方法的路径长度(SPL)加权的成功率(%)/成功率。

从表一可以看出,基于随机行走的方法的成功率非常低,这并不奇怪,因为在没有任何先验知识的情况下在我们的环境中进行导航非常具有挑战性。贪婪搜索略优于随机搜索,因为代理可以从声音中预测目标的位置。然而,成功率仍然低于15%,因为代理没有关于房间布局的视觉先验知识,并且将最短几何距离误解为最短路径,这在我们的设置中并不总是适用。这些结果表明,连接视觉和声音信息对于视听导航任务非常重要。基于A3C的方法的性能明显弱于文献[45]中先前报道的那些方法。关键原因是我们专注于将代理放在以前看不见的环境中的泛化。这是一个更具挑战性,但也更现实的场景。我们还发现,我们的方法与A3C之间的性能差距仍然很大,A3C在导航过程中使用了来自探索的内隐空间记忆和外显空间记忆。我们推测,我们的方法可以将视觉感知和声音感知从路径规划中分离出来,从而在新的测试环境中提供更好的通用性。

 图4:我们(红色)的轨迹与A3C(V+A+M+Mapper)(蓝色)的轨迹对比。我们的模型为到达目标提供了更有效的路径。

图4更详细地展示了两个测试室的结果,绘制了我们方法的轨迹与最佳性能基线(A3C(V+A+M+Mapper))的轨迹。在非基于探索的环境中,我们的方法(无实验)也可以实现近60%的成功率,甚至超过最强大的探索基线。这些结果表明,我们的系统能够更好地利用房间的布局,并找到最短路径来达到目标。例如,当声音在另一个房间时,代理往往会来到门前,从而有效地达到目标。补充材料中提供了更多定性结果。

结论

我们在多模态虚拟环境中解决了一个新问题,即视听体现导航。

代理可以使用环境的内部结构化表示来有效地导航到先前看不见的环境中的目标。我们的多模式虚拟环境由具有声音模块和逼真布局的复杂公寓组成。我们证明了最先进的深度强化学习方法在泛化方面遇到困难。我们的方法推广到新的目标和新的环境,并取得了显著的效果。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值