End-to-end Active Object Tracking and Its Real-world Deployment via Reinforcement Learning 笔记

论文原文地址:https://ieeexplore.ieee.org/document/8642452

译文地址:https://baijiahao.baidu.com/s?id=1631851140977931477&wfr=spider&for=pc

端到端的主动跟踪器由三个部分组成:
Observation Encoder、Sequence Encoder、Actor-Critic Network。
Observation Encoder相当于一个前端反馈网络,他包含卷积层、池化层、全连接层等。
Sequence Encoder不仅包含OE中的观测特征,还要有时序特征如速度、移动方向等,因为对于主动跟踪而言,出了要识别和定位object,还要有相应的时序特征。这一部分一般用循环神经网络实现?(原因?)
Actor-Critic  Network把SE中的特征作为输入,分别输出近似的价值函数和动作策略。近似的价值函数即多个Reward之后的Value,在训练时用于计算演员的策略梯度(更新Theta),来更新网络。
动作空间离散时,输出各动作的概率;连续时,输出每一维度动作的平均值和标准差,并用高斯分布(正态分布)来表示动作分布。实验中,他们分别用全连接层来实现。
Reward Function
针对主动目标跟踪任务,我们在目标接近期望位置时给予奖励,远离时给予乘法。
环境增强技术:
为提高泛化能力,主要采用以下随机化方式:
1.跟踪器和目标的初始位置与朝向随机生成。
2.将输入图像进行左右镜像对称(对应的动作空间也将镜像对称)为什么要镜像?
3.随机隐藏一定数目的背景物体。
为更进一步提升模型的泛化能力以便直接迁移至真实场景,我们对关键要素进行了更进一步的随机化:
1.目标和背景的表面材质
2.光照条件
3.目标移动的速度和轨迹。
前两项的随机化为了提升OE的泛化能力,避免网络对特定场景和目标外观过拟合。第三点时为了提升SE的泛化能力,避免网络对特定的移动轨迹过拟合。
在真实场景中的主动目标跟踪:
1.连续动作空间下的表现能力:
   二维动作空间(由线速度和角速度组成)。
真实场景实验设置:
每个50ms(20HZ)跟踪器的状态和动作会更新迭代一次。

转载于:https://www.cnblogs.com/yy1921rz/p/10963908.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值