Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout

该研究提出了一种通用的导航智能体,通过两阶段学习在未知环境中导航。首先,结合模仿学习(IL)和强化学习(RL)进行监督训练。然后,使用环境退化(Environmental Dropout)模拟未知环境,配合反向翻译策略增强模型的泛化能力。在R2R数据集上,该方法取得了领先成绩。
摘要由CSDN通过智能技术生成

Instruction

  • Tan H, Yu L, Bansal M. Learning to navigate unseen environments: Back translation with environmental dropout[J]. ICLR,2019.

  • 代码开源地址:https://github.com/airsplay/R2R-EnvDrop

  • 摘要:在人工智能中有一个宏伟的目标就是构建一个机器人能够准确的按照人类自然语言指令进行导航,这项技术要求智能体能够感知环境,理解和落实语言内容,并在真实环境中进行操作。一个主要的挑战就是学习在未知的新环境中进行导航。之前提出的解决方法不能够对于未知环境像已知环境一样动态灵活性强,因此本文解决这个问题,提出了一个通用的导航智能体,使用两阶段对之进行训练,包括第一阶段,使用混合的模拟学习和强化学习方法进行监督学习训练,第二阶段,使用半监督方法在新建立的未知环境三元组中对模型调优。为了生成这些未知环境三元组,本文提出了一个简单但是有效的 environment dropout 方法来模拟未知环境,克服了受限的已知环境的种类问题,使用半监督学习方法(back-translation方法)在生成的dropped-out environment中生成新的路径和指令,用它们提高模型泛化能力。本文在R2R数据集中排名第一。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值