Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning 论文翻译

最新推荐文章于 2024-06-22 09:44:53 发布

王蛋糕cake

最新推荐文章于 2024-06-22 09:44:53 发布

阅读量593

点赞数

原文链接：https://arxiv.org/pdf/1811.10092.pdf

版权

《Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation》主要内容翻译。

参考论文：https://arxiv.org/pdf/1811.10092.pdf

摘要

视觉语言导航（VLN）是智能体在实际的环境中执行自然语言指令的任务。本文研究如何解决此任务的三个关键挑战：跨模态匹配，不适定的反馈和泛化问题。首先提出了强化跨模态匹配（RCM）方法，通过强化学习在局部和全局实现跨模态匹配。特别地，使用一个匹配判断器提供内在的奖励来鼓励指令和轨迹之间的全局匹配，并且使用一个推理导航器来在局部视觉场景中执行跨模态信息匹配。在benchmark数据集上，RCM比之前方法在SPL上提高10%，达到最高水平。为了提高模型的泛化能力，进一步提出了一种自我监督的模仿学习（SIL）方法，通过模仿自己过去正确的决策来探索新环境。SIL方法最大程度的减少了已知和未知环境之间成功率的差距，从30.7%降到11.7%。

1介绍

由于许多现实应用（家用机器人、个人助理）的流行，基于视觉语言的智能体受到越来越多的关注。视觉语言导航任务要求智能体通过遵循自然语言指令在真实环境中导航。完成VLN任务，需要深入理解语言语义、视觉感知以及语言和视觉的对应。智能体需要通过动态推理朝着从指令中推断的目标前进。

VLN任务面临很多挑战。首先，对视觉图像和自然语言指令进行推理很难，要到达目的，需要将指令与局部视觉场景对应，同时需要将指令与全局时空中的视觉轨迹进行匹配。其次，反馈很粗糙，智能体只有达到目标点才能获得成功反馈，忽略了智能体是沿着指令路线到达目标或是沿着随机路线到达目标，即使路线与指令非常匹配，若在到达目标前停下也会被认为是失败。不适定的反馈会偏离最佳策略的学习。第三，现有的方法都受到泛化问题的困扰，已知环境和未知环境之间表现存在很大差异。

本文结合强化学习和模仿学习来解决以上挑战。首先提出RCM，通过强化学习在局部和全局进行跨模态匹配。具体内容为，设计一个推理导航器，在指令和局部视觉间进行匹配，使智能体推断出要关注的子指令和需要去看哪里。从全局视角看，设计了一个匹配判断器，通过计算一条已执行路线还原自然语言指令的概率来评估该路线，并称之为循环重建奖励。从局部视角看，循环重建奖励提供了细粒度的内在奖励信号，鼓励智能体更好地理解语言指令并惩罚与指令不匹配的轨迹。

用来自匹配判断器的内部奖励和来自环境的外部奖励训练后，推理导航器学会将自然语言指令与局部空间视觉场景和全局时空视觉轨迹匹配。RCM模型在R2R数据集上取得最好表现。

为了缩小可见和不可见环境表现之间的差距，使用自我监督来探索未知环境。该技术可以促进智能体终身学习和适应新环境。基于此本文引入一种自我监督的模仿学习（SIL）方法，以便在没有标签的未知环境中探索。智能体模仿自己过去良好的经验。在我们的框架中，导航器探索多条路径，其中良好的轨迹（匹配判断器决定）被存储在缓存区供导航器模仿。这样导航器可以通过模仿自己最好的行为来得到更好的策略。本文贡献主要有三点：1、提出RCM框架，利用内部奖励和外部奖励进行强化学习；2、RCM在R2R上取得最好结果；3、为VLN引入了一种新的评估设置，在测试之前探索未知环境，提出一种自我监督模仿学习（SIL）方法。

2相关工作

视觉语言匹配 最近计算机视觉和自然语言处理领域的研究人员都在努力将它们联系起来，例如图像和视频注释、根据描述定位目标、视觉问答和视觉对话。从视觉角度看这些任务都是被动的去感知。在VLN任务中，作者致力于解决时空上的多模态动态匹配问题，要求智能体与环境进行主动交互。

内嵌导航智能体 在三维环境中导航是移动智能体在现实世界运行的基本功能。过去两年有很多任务和评估方法被提出，[1]做了总结。VLN专注于真实环境中基于自然语言的导航。为了解决VLN任务，[3]提出了基于注意力的sequence-to-sequence baseline模型。[50]提出了结合无模型和有模型强化学习的方法，提高了模型的泛化能力。[13]提出speaker-follower模型，采用了数据增强、全景动作空间、改进束搜索，在R2R数据集上取得了目前最优结果。作者在[13]的基础上提出了RCM，不同之处在于（1）作者将多奖励RL和模仿学习结合，而[13]仅和[3]一样使用监督学习；（2）作者的推理导航器执行跨模匹配，而不是在单模态输入上使用时间注意力；（3）作者的匹配判断器在结构上和speaker相似，但前者为RL和SIL训练提供循环重建内部奖励，后者为监督学习提供数据增强。此外，先前的工作一直没有解决泛化问题，作者提出自监督模仿学习进行探索来解决该问题。作者是第一个提出探索VLN任务未知环境的人。

探索探索和利用的权衡是RL的基本挑战之一，智能体需要利用学到的知识来最大化收益，并探索新的领域进行更好地策略搜索。好奇心和不确定性被用来作为探索的信号，[32]提出利用过去的良好经验来探索，并从理论上证明了有效性。作者提出的SIL利用了相同的原理，但没有在游戏上进行测试，而是针对更实际的VLN任务验证其有效性和效率。

3强化跨模态匹配

3.1概要

RCM框架主要包括两部分：推理导航器 $\pi_{\theta}$ 和匹配判断器 $V_{\beta}$ 。初始状态为 $s_{0}$ ，自然语言指令 $X=x_{1},x_{2},...,x_{n}$ ，为了到达目标点 $s_{target}$ ，推理导航器执行一系列动作 $a_{1},a_{2},...,a_{T}\in A$ ，生成轨迹 $\tau$ 。导航器与环境交互，感知新的视觉信息并执行动作。为了提升泛化能力，强化策略学习，引入了两个奖励函数：由环境提供的外部奖励，测量成功信号和每个动作的导航误差；有匹配判断器提供的内部奖励，测量导航指令X和导航器轨迹 $\tau$ 的对齐效果。

3.2模型

本小节介绍推理导航器和匹配判断器的细节，两者都可端到端训练。

3.2.1跨模推理导航器

基于策略的导航器 $\pi_{\theta}$ 将输入指令X映射到动作序列 $\left \{ a_{t} \right \}^{T}_{t=1}$ 。在每个时间步t，导航器从环境获取状态 $s_{t}$ ，并需要将文字指令与局部视觉场景匹配。因此，作者设计了跨模态推理导航器，按顺序学习轨迹历史、文本指令的关注点和局部视觉注意力，从在时间步t形成一种跨模态推理路径来鼓励两种模态的局部动态匹配。

图3展示了导航器在时间步t的展开图。和[13]类似，导航器使用了全景视野，全景图像被分为m个视角的图像块，所以从状态 $s_{t}$ 提取到的全景特征可以表示为 $\left \{ v_{t,j} \right \}^{m}_{j=1}$ ，其中 $v_{t,j}$ 表示从视角j的图像块提取到的CNN特征。

历史背景 当导航器前进一步，视觉场景会随之更新。历史轨迹 $\tau_{1:t}$ 被基于注意力的LSTM编码为历史背景向量 $h_{t}$ ： $h_{t}=LSTM([v_{t},a_{t-1}],h_{t-1})$ ，其中 $a_{t-1}$ 为前一步动作， $v_{t}=\sum_{j}\alpha_{t,j}v_{t,j}$ 为全景特征加权求和。 $\alpha_{t,j}$ 视觉特征 $v_{t,j}$ 的权重，表示视觉特征对于历史背景 $h_{t-1}$ 的重要性。这里使用了点乘注意力:

$\begin{aligned} v_{t}&=attention(h_{t-1},\left\{v_{t,j}\right\}^{m}_{j=1})\\ &=\sum_{j}softmax(h_{t-1}W_{h}(v_{t,j}W_{v})^{T})v_{t,j} \end{aligned}$

其中 $W_{h}$ 和 $W_{v}$ 是可学习映射矩阵。（括号内的矩阵相乘部分就是在时间步t求 $h_{t-1}$ 与 $v_{t,j}$ 的相关程度，最后将j=1到m个相关度求softmax作为 $v_{t,j}$ 的注意力权重，后面的注意力公式也是这样理解）

视觉条件下的语言内容 记住过去可以帮助认清当前状态，从而理解应该注意哪一部分指令或者哪个单词。因此，基于历史背景 $h_{t}$ 学习了语言内容 $c^{text}_{t}$ 。令语言编码器LSTM编码语言指令X为文本特征 $\left\{w_{i}\right\}^{n}_{i=1}$ 。然后在每一步计算语言内容 $c^{text}_{t}=attention(h_{t},\left\{w_{i}\right\}^{n}_{i=1})$ ， $c^{text}_{t}$ 更重视与历史轨迹和当前视觉场景相关的单词。

文本条件下的视觉内容 知道去看哪里需要对语言指令的动态理解；计算视觉内容 $c^{visual}_{t}=attention(c_{t}^{text},\left\{v_{j}\right\}^{m}_{j=1})$ 。

动作预测 最后，动作预测器基于历史内容 $h_{t}$ ，语言内容 $c^{text}_{t}$ 和视觉内容 $c^{visual}_{t}$ ，决定下一步移动方向。使用双线性点乘计算向每一个可移动方向移动的概率 $p_{k}=softmax([h_{t},c^{text}_{t},c^{visual}_{t}]W_{c}(u_{k}W_{u})^{T})$ ，其中 $u_{k}$ 为第k个可移动方向移动动作的嵌入， $u_{k}$ 通过拼接视觉特征向量（视角k方向周围的图像块提取到的CNN特征）和4维方向特征向量 $[\sin\psi;\cos\psi;\sin\omega;\cos\omega]$ ，其中 $\psi$ 和 $\omega$ 分别表示（相机）朝向角和高度角。

3.2.2跨模态匹配判断器

除了从环境中获取外部奖励，利用匹配判断器 $V_{\beta}$ 给出内部奖励 $R_{intr}$ 来促进语言指令X和导航器 $\pi_{\theta}$ 轨迹 $\tau=\left\{<s_{1},a_{1}>,<s_{2},a_{2}>,...,<s_{T},a_{T}>\right\}$ 的匹配： $R_{intr}=V_{\beta}(X,\tau)=V_{\beta}(X,\pi_{\theta}(X))$ 。实现该目标的一种方法是计算循环重建奖励 $p(\bar{X}=X|\pi_{\theta}(X))$ ，即给定导航器的轨迹 $\tau=\pi_{\theta}(X)$ 计算重建语言指令X的概率。概率越大，产生的轨迹和指令约匹配。

因此如图4所示，采用基于注意力的sequence-to-sequence语言模型作为匹配判断器 $V_{\beta}$ ，判断器用轨迹编码器编码轨迹 $\tau$ ，使用语言解码器输出指令X的概率分布。因此内部奖励为 $R_{intr}=p_{\beta}(X|\pi_{\theta}(X))=p_{\beta}(X|\tau)$ ，并用指令长度n正则化。在本实验中，匹配判断器用人类标注的数据集（指令-轨迹对 $<X^{*},\tau^{*}>$ ）通过监督学习预训练。

3.3学习

为了快速逼近一个较好的策略，使用示例动作进行监督学习，使用最大似然估计。训练损失函数为 $L_{sl}=-\mathbb{E}[\log(\pi_{\theta}(a^{*}_{t}|s_{t}))]$ ，其中 $a^{*}_{t}$ 为示例动作。先用监督学习训练可以确保学习到可见环境中的良好策略，但也限制了智能体纠正未知环境中错误动作的泛化能力，因为它只是复制模仿了专家示例的动作。

为了学习到更好泛化更强的策略，转换为使用强化学习并引入外部奖励和内部奖励来从不同角度优化策略。

外部奖励 RL通常直接优化评估指标。VLN的目标为成功到达目标位置 $s_{target}$ ，因此使用两个指标来设计奖励。第一个指标是相对距离，令 $s_{t}$ 和 $s_{target}$ 之前的距离为 $D_{target}(s_{t})$ ，则在状态 $s_{t}$ 执行动作 $a_{t}$ 后的瞬间奖励为： $r(s_{t},a_{t})=D_{target}(s_{t})-D_{target}(s_{t+1}),t<T$ 。该奖励计算了执行动作 $a_{t}$ 后智能体与目标位置之间距离的减少。第二个指标为是否成功，如果智能体到达了与目标位置距离小于d的点，则认为导航成功，最后一个时间步T的瞬时奖励定义为： $r(s_{T},a_{T})=1(D_{target}(s_{T})\leq d)$ ，其中 1() 是指示函数。为了合并动作 $a_{t}$ 对于将来的影响和局部贪婪搜索，使用折扣累计奖励替换瞬间奖励来训练策略：

$R_{extr}(s_{t},a_{t})=r(s_{t},a_{t})+\sum^{T}_{t^{'}=t+1}\gamma^{t^{'}-t}r(s_{t^{'}},a_{t^{'}})$ ，其中 $\gamma$ 为折扣因子。

内部奖励 如3.2.2段讨论，预训练匹配判断器来计算循环重建内部奖励 $R_{intr}$ ，用来促进语言指令X和轨迹 $\tau$ 的对齐。该奖励鼓励智能体去遵守指令并惩罚那些偏离指令的路径。

同时使用外部和内部奖励，RL奖励表示为 $L_{rl}=-\mathbb{E}_{a_{t}\sim \pi_{\theta}}[A_{t}]$ ，其中优势函数 $A_{t}=R_{extr}+\delta R_{intr}$ ， $\delta$ 为内部奖励权重。基于强化学习算法，不可微分、基于奖励的损失函数导数为：

$\nabla_{\theta}L_{rl}=-A_{t}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})$ 。

4自监督模仿学习

最后一段介绍解决视觉导航任务的RCM方法。传统方法就是在已经环境中训练，然后在未知环境中不经探索直接测试。作者的方法运行智能体探索未知环境，这是非常有实际意义的，因为这有助于终身学习额适应新环境。

作者提出自监督模仿学习（SIL）方法来模仿智能体过去的好决策。如图5所示，已知自然语言指令X，配对的路径和目标位置是未知的，导航器生成一系列可能的轨迹并将匹配判断器 $V_{\beta}$ 认为最好的轨迹 $\hat{\tau}$ 存储到回放缓冲区中： $\hat{\tau}=\arg\max_{\tau}V_{\beta}(X,\tau)$ 。匹配判断器通过循环重建奖励来评估轨迹。然后通过利用回放缓冲区内的良好轨迹，智能体通过自监督优化以下目标。由于目标位置未知所以没有来自环境的监督信号。 $L_{sil}=-R_{intr}\log\pi_{\theta}(a_{t}|s_{t})$ 。 $L_{sil}$ 可以被看作策略梯度的损失，使用了离线蒙特卡洛回报 $R_{intr}$ 而不是在线回报。 $L_{sil}$ 也可以被解释为监督学习的损失， $\hat{\tau}$ 作为监督信号： $L_{sil}=-\mathbb{E}[\log(\pi_{\theta}(\hat{a_{t}}|s_{t}))]$ ，其中 $\hat{a_{t}}$ 为回放缓冲区存放在动作。配合匹配判断器，SIL方法可以使用多种学习方法，通过模仿过去的良好表现来逼近更好的策略。

5实验和分析

5.1实验设置

R2R数据集 在R2R数据集上测试，数据集包括7189条路径，21567条指令，平均长29个单词。数据集被分为训练集，可见验证集，不可见验证集和测试集。

测试场景 VLN任务通常在已知环境训练智能体并在未知环境测试，未知环境没有预先探索。这有助于清楚地测量导航策略的泛化能力，所以在标准测试场景中评估RCM模型。

此外，在未知环境中进行探索在实际中是非常有意义的，所以作者引入终生学习场景，智能体通过试错在位置环境中进行学习。在这种情况下，如何有效地探索未知验证集或测试对于学习非常关键。

评估指标 使用五个评估指标：路径长度PL，导航误差NE，oracle成功率OSR，成功率SR，反向路径长度加权成功率SPL。在这些指标中，SPL被看作导航表现的主要指标，因为SPL同时反映了导航的有效性和效率。

实施细节 使用ResNet-152提取CNN特征，模型不再进行微调。使用预训练的GloVe词嵌入初始化并在后续训练中进行微调。使用注释样本训练匹配测试器，并在策略学习中保持固定。首先通过监督学习学习策略，然后转为强化学习来训练（模仿学习部分也是如此）。

5.2测试集结果

与现有最好结果对比 用RCM于多种方法在R2R数据集的测试集上进行对比。（1）Random：随机选择一个方向并前进五步。（2）seq2seq：[3]中使用student-forcing训练的sequence-to-sequence模型。（3）RPA：结合了有模型和无模型的强化学习方法。（4）Speaker-Follower：结合了数据增强、全景动作空间、束搜索的模型。

RCM明显超出现有模型的表现，将SPL从28%提升至35%。此外，使用SIL模仿RCM智能体在训练集上的最优行动可以逼近一个更有效的策略，将平均路径长度从15.22米减少至11.97米，同时将SPL提升至38%。由于束搜索在现实中并不实用，智能体需要执行非常长的轨迹，然后进行选择，这导致SPL指标非常低。所以在对比中没有使用束搜索。

自监督模仿学习 作者在训练集上使用SIL来学习有效的策略。对于终身学习场景，我们测试了SIL在探索未知环境上的有效性。从表1看出SIL确实在未知目标地点的情况下学习到了更好的策略。SIL和束搜索的关键不同点为SIL通过执行-模仿来优化策略，而束搜索只是在当前策略执行的路径中进行贪婪选择。

5.3消融学习

每个模块的影响 进行消融学习来解释每个模块在已知和未知验证集上的作用，结果如表2。

通过移除内部奖励，我们发现指令和轨迹间的对齐作为环境反馈以外的补充监督，对于提升未知环境的表现非常有效，由于缺少探索未知环境需要更多的监督信号。这也间接验证了探索对于未知环境的重要性。

通过移除外部奖励（相当于纯监督学习），验证了强化学习对于VLN任务的优势。同时，由于最终基于SR和PL评估结果，所以优化外部奖励可以保证强化学习的稳定性，带来巨大提升。

最后验证跨模态推理导航器的作用，对比基于注意力的seq2seq模型（在视觉和语言解码时同时都是用前一时刻隐状态 $h_{t-1}$ ），显然作者提出的导航器相比baseline有很大提升。

最后展示了用于探索的SIL方法，对于可见和不可见环境表现都有相当大的提升，因为智能体通过自己以往的经验学习了如何更好地执行指令。

泛化能力 RCM方法相比于其他baseline对于未知环境的泛化能力更好。同样SIL方法通过探索未知环境极大减小了已知环境和未知环境成功率的差距，从30.7%减小到11.7%。

6结论

本文提出了两种新颖的方法，RCM和SIL，结合了强化学习和自监督模仿学习的优势。实验阐明了方法在标准测试场景和终身学习场景下的有效性和效率。此外，作者的方法在未知环境中泛化能力更强。提出的学习框架是模块化的，可以独立提升性能。作者认为除了粗糙的外部奖励，学习更细粒的内部奖励对于各种内嵌智能体任务都可应用，SIL也可以通用到探索未知环境中。

参考文献[3]翻译：Interpreting visually-grounded navigation instructions in real environments论文翻译

参考文献[13]翻译：Speaker-Follower Models for Vision-and-Language Navigation论文翻译

王蛋糕cake

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫