使用元学习的自适应视觉导航

提出一种自适应视觉导航方法,利用元强化学习使代理在新环境中自我监督地学习适应,无需外部监督,实现在AI2-THOR框架下新场景中导航成功率和SPL的重大提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

学习是一种内在的连续现象。当人类学习一项新任务时,训练和推理之间没有明显的区别。当我们学习一项任务时,我们会在执行任务时不断学习。在不同的学习阶段,我们学习什么和如何学习是不同的。学习如何学习和适应是一个关键属性,它使我们能够毫不费力地推广到新的环境。这与机器学习中的传统设置形成对比,在传统设置中,训练好的模型在推理过程中被冻结。在本文中,我们研究了在视觉导航的环境中,在训练和测试时间学习的问题。导航的一个基本挑战是对看不见的场景进行概括。本文提出了一种自适应视觉导航方法,该方法在没有任何外部监督的情况下学会适应新环境。我们的解决方案是一种元强化学习方法,在这种方法中,代理学习自我监督的交互损失,从而鼓励有效的导航。我们的实验在AI2-托尔框架下进行,显示了在新场景中视觉导航的成功率和SPL方面的重大改进。

介绍

学习是一种内在的连续现象。我们进一步学习我们已经学习过的任务,并可以通过在这些环境中互动来学习适应新环境。当我们学习和执行任务时,训练和测试阶段之间没有硬性的界限:我们边做边学。这与许多现代深度学习技术形成鲜明对比,在这些技术中,网络在推理过程中被冻结。

在不同的学习阶段,我们学习什么和如何学习是不同的。为了学习一项新的任务,我们经常依赖外部的监督。学习完一项任务后,我们会在适应新环境的过程中进一步学习。这种适应不一定需要明确的监督;我们经常通过与环境的互动来做到这一点。

传统导航方法在推理过程中冻结模型(顶行);这可能导致难以推广到看不见的环境。在本文中,我们提出了一种元强化学习导航方法,其中代理以自我监督的方式学习适应(底部一行)。在这个例子中,当代理与一个对象碰撞一次时,它学会了适应自己,然后正确地行动。相比之下,标准解决方案(顶行)在执行任务时会犯多种相同的错误。
在本文中,我们研究了在视觉导航的背景下,在训练和测试时间学习学习和适应的问题;对于任何视觉智能代理来说,最重要的技能之一。视觉导航的目标是向环境中的某些对象或区域移动。导航中的一个关键挑战是推广到训练中没有观察到的场景,因为场景的结构和对象的外观是不熟悉的。在本文中,我们提出了一个自适应视觉导航模型,该模型在推理过程中学习适应,而无需使用交互损失 的任何显式监督(图1)。

从形式上来说,我们的解决方案是视觉导航的元强化学习方法,其中代理通过自我监督的交互损失来学习适应。我们的方法受到基于梯度的元学习算法的启发,该算法使用少量数据快速学习[13]。然而,在我们的方法中,我们使用少量的自我监督交互来快速学习。在视觉导航中,适应是可能的,不需要任何奖励功能或正面例子。随着代理的训练,它学会了自我监督的损失,鼓励有效的导航。在训练期间,我们鼓励由自监督损失引起的梯度与我们从监督导航损失中获得的梯度相似。因此,当没有明确的监督时,代理能够在推理过程中进行调整。

总之,在训练和测试期间,代理在执行导航的同时修改其网络。这种方法不同于传统的强化学习,在传统的强化学习中,网络在训练后被冻结,与监督元学习形成对比,因为我们在推理过程中学习适应新的环境,而没有获得奖励。

我们使用AI2-托尔[23]框架进行实验。该代理旨在仅使用视觉观察来导航到给定对象类别(例如,微波)的实例。我们表明,在成功率(40.8对33.0)和SPL (16.2对14.7)方面,模拟虚拟神经网络优于非自适应基线。此外,我们证明了学习自我监督的损失比手工制作的自我监督的损失有所改善。此外,我们表明,我们的方法优于记忆增强的非自

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值