Habitat环境学习一:导航任务概述

导航任务

概述:

Agent需要导航到环境中的指定位置,而该位置可以由特定的目标形式指定。

PointGoal Navigation:导航到环境中相对于初始位置特定的点;

点目标导航

Object Navigation:Agent需要在环境中找到特定的物体;

对象导航

Room Navigation:物体需要导航到特定的房间;

房间导航
此外还有Vision-and-Language Navigation(VLN)和Embodied Question Answering(EQA)。

评估指标

  • Unseen environment:未见环境,在已知环境中训练并推广泛化到未知环境;
  • Both success and efficiency are counted:成功率和效率都很重要,但需要在保证成功率的情况下再考虑效率;

导航任务:

机器人的输入:
包括深度相机和RGB图像以及GPS+Compass信息;
GPS+Compass告诉机器人当前所处的位置和方向,以及相对于初始位置和方向;
输入信号
Agent可以采用的动作:
将Agent建模为0.1m的圆柱体;
可以采用的四个低层动作分别是:

  • stop;
  • move_forward:向前运动0.25m;
  • turn_left:向左旋转10度;
  • turn_right:向右旋转10度。

网络架构:

网络架构
采用深度强化学习DRL进行训练:
设置的奖励函数如下其中 λ \lambda λ是懈怠惩罚,促使Agent更快到达目标位置。
奖励函数
训练过程如下:

  • 使用当前策略得到一系列轨迹;
  • 使用收集到的经验更新策略;
  • 重复。
    该过程是在Habitat Sim中完成的:Habitat-Sim可以作为环境与Agent进行交互,会反馈机器人的传感器状态,模拟的噪声等…
    Habitat Sim
    训练Agent是在Habitat Lab中完成的,主要是在habitat-baselines文件夹中。其中包含了CNN和RNN相关的代码,以及PPO算法代码。
    文件夹路径
    Habitat中内置的算法:
    内置算法
    参考链接:
    官方视频链接
    Habitat lab官网docs
    Habitat sim官网docs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值