AD-VAT: A N ASYMMETRIC DUELING MECHANISM FOR LEARNING VISUAL ACTIVE TRACKING 基于非对称的学习决斗机制的主动视觉跟踪

AD-VAT: A N ASYMMETRIC DUELING MECHANISM FOR LEARNING VISUAL ACTIVE TRACKING

ABSTRACT

视觉主动跟踪(VAT)是指在给定的视觉观测条件下,通过自主控制跟踪器的运动系统来跟踪目标。以前的工作表明,跟踪器可以通过强化学习在模拟器中进行训练,并部署在真实场景中。然而,这种方法在训练过程中需要人工指定目标的运动路径,不能保证跟踪器对未知目标运动模式的泛化。
为了学习VAT的鲁棒跟踪器,本文提出了一种采用非对称决斗机制的对抗性RL方法,称为AD-VAT。
在AD-VAT中,跟踪器和目标都由端到端的神经网络逼近,并通过RL以决斗/竞争的方式进行训练:,
追踪器打算锁定目标,而目标试图逃离追踪器。它们是不对称的,因为目标知道跟踪器,而不是相反。
具体地说,除了自身的观察之外,目标还接受跟踪器的观察和动作,并作为辅助任务学习预测跟踪器的报酬。
我们证明了这样一个不对称的决斗机制产生了一个更强的目标,这反过来又诱导了一个更健壮的跟踪器。
为了稳定训练,我们还提出了一种新的跟踪/目标部分零和奖励方法。
在二维和三维环境下的实验结果表明,该方法在训练过程中收敛速度更快,在不同的测试场景下具有更强的鲁棒性。

RELATED WORK

Wenhan Luo, Peng Sun, Fangwei Zhong, Wei Liu, Tong Zhang, and Yizhou Wang. End-to-end active
object tracking via reinforcement learning. In International Conference on Machine Learning, pp.
3286–3295, 2018.
W. Luo, P. Sun, F. Zhong, W. Liu, T. Zhang, and Y. Wang. End-to-end active object tracking and its
real-world deployment via reinforcement learning. IEEE Transactions on Pattern Analysis and
Machine Intelligence, pp. 1–1, 2019. ISSN 0162-8828. doi: 10.1109/TPAMI.2019.2899570.

However, the performance of the deep reinforcement learning based tracker is still limited by the
training methods. Due to the “trial-and-error” nature of reinforcement learning, it is infeasible to
directly train the tracker in the real world. Alternatively, virtual environments are always utilized
to generate sufficient data for training without tedious human labeling. Nevertheless, to deploy the
trained tracker in the real world, one has to overcome the virtual-to-real gap

在这里插入图片描述

在实际应用中,采用启发式对抗RL方法训练增值税是不稳定的,收敛速度慢。

o address these issues, we derive two components in AD-VAT: partial zero-sum reward(PZR) and
tracker-aware model(TAM) for target. PZR is a hybrid reward structure. It encourages a zero-sum
tracker-target competition in the near range, where the target is close to the expected position to
tracker; whereas, beyond the zero-sum zone, it is a non-zero-sum game, in which the target is
penalized for running too far to track.

The contributions of our work can be summarized as follows:
• We propose a novel Adversarial Reinforcement Learning method for VAT task, i.e., the
Asymmetric Dueling mechanism (AD-VAT). In AD-VAT, the target learns to generate
diverse trajectories when competing with the tracker, which in turn helps train a more robust
tracker.
• We provide two techniques to guarantee an efficient yet effective AD-VAT. 1) A partial
zero-sum reward structure, which significantly stabilizes the training. 2) A tracker-aware
network for the target, which yields better escaping policy and consequently better tracking
policy.

主动目标跟踪问题:
Active Object Tracking.
As described above that, active object tracking deals with object tracking
and camera control at the same time

与前面提到的工作不同,AD-VAT中的对手(要跟踪的目标)是一个物理玩家,它可以在任何时间步完全控制目标的移动。
在本文中,这种双人竞技被称为“决斗”。我们认为,这样一个完全可控的对手可以在训练中给主角带来更多的挑战,从而产生一个更强大的视觉跟踪器。

METHOD

1.partial zero-sum reward structure

2.a tracker-aware model for the target

3.1 FORMULATION

在这里插入图片描述
S:state space 环境状态空间
O:observation space 观察空间
A:action space 行动空间
r:reward function 奖赏函数
P:environment state transition probability 环境状态转换概率

Let subscript t ∈ {1, 2, …} denote the time step

In the case of partial observation, we have the observation
在这里插入图片描述
它简化为
在这里插入图片描述
当两个代理同时采取动作a 1,t ∈ A 1,a 2,t ∈ A 2时,更新后的状态s t+1由环境状态转移概率得出
在这里插入图片描述

马尔科夫性 Markov Property
某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。

策略Policy
策略 是概率的集合或分布,其元素 为对过程中的某一状态s采取可能的行为a的概率。

Meanwhile, the two agents receive rewards
r 1,t = r 1,t (s t , a 1,t ),r 2,t = r 2,t (s t , a 2,t )

策略Policy
策略 是概率的集合或分布,其元素 为对过程中的某一状态s采取可能的行为a的概率。

跟踪器的策略π1(a1,t|o1,t)是基于其观察o1,t的跟踪器动作a1,t的分布

我们依靠无模型独立强化学习来学习π1。具体而言,该策略将参数为θ1的神经
网络作为函数逼近器

在这里插入图片描述
在这里插入图片描述

3.2 REWARD STRUCTURE

Trapit Bansal, Jakub Pachocki, Szymon Sidor, Ilya Sutskever, and Igor Mordatch. Emergent complexity via multi-agent competition. arXiv preprint arXiv:1710.03748, 2017.

在这种情况下,采样的经验对于提高代理的技能水平通常是没有意义和无效的

在零和博弈中,每个代理人的报酬之和总是0,例如r1,t+r2,t= 0。但是这样
的提法并不适合V A T,考虑到一个案例,当两个对手距离太远而无法相互观察
时,他们所采取的行动很难影响到部分可观察博弈下直接对对手的观察。在这
种情况下,采样的经验对于提高代理的技能水平通常是没有意义和无效的

因此,将竞争限制在可观察的范围内将使学习更加有效。受此激励,我们塑造
了一个部分零和奖励结构,该结构仅在目标被追踪者观察到时利用零和奖励,
但在每个代理远离时给予惩罚。在下面,我们将介绍视觉主动跟踪的部分零和
奖励结构的细节。

Reward for tracker

跟踪器的报酬与(罗等,2018)中的相似,由一个正常数和一个误差惩罚项组成
。不同的是,我们不考虑目标和跟踪器之间的方向差异。考虑到相机观察的模
型,我们基于极坐标系统测量相对位置误差,其中跟踪器在原点(0,0)。在这
个以跟踪器为中心的坐标系中,目标的实际位置和期望位置分别由(ρ2,θ2)和(
ρ∫2,θ∫2)表示。注意,ρ是到跟踪器的距离,θ是到跟踪器前面的相对角度。

在这里插入图片描述
这里> 0,ζ > 0, ξ≥0是调谐参数,ξ = 0在2D环境中。我们不使用方向误差作
为惩罚的一部分,因为在二维环境中观测是全方位的。ρmax是到跟踪器的最大
可观测距离。θmax是相机模型的最大视角。
等于视场(FoV)此外,奖励被剪切在[−A, A]范围内,以避免在目标远离预期位置
时过度惩罚

Reward for target
其中R1是等式中定义的跟踪器的奖励。(5)、> 0、ν ≥ 0是控制每个惩罚项因
子的调谐参数。ν在2D环境中为0,作为等式中的角度惩罚因子ξ。(5).目标在近
可观测范围内,其中ρ2< ρmaxand |θ2| < θmax。在可观察范围内,奖励函数简
化为R2 = R1,这意味着目标和追踪者在玩零和游戏。当目标超出可观察范围
时,惩罚项将对奖励生效。目标越远离射程,受到的惩罚就越大。通过应用这
个奖励函数,我们期望的目标的最优策略应该是从追踪器的可观察范围中逃脱
和消失,但是保持接近该范围的边缘。r2也被限制在[α,α]范围内。此外,我
在这里插入图片描述

3.3TRACKER - AWARE T ARGET

通过追踪器感知,目标会比追踪器“更强”,因为它知道追踪器是什么
知道。这个想法体现了一句古老的中国谚语,“知己知彼,百战不殆
每一场战斗你都会胜利”,摘自孙的代表作《孙子兵法》(2008)。这
传统的对手通常只使用自己的观察,班萨尔等人(2017年)或共享相同的
观察主角平托等人(2017)。回忆目标策略π2(a ^ 2,t | o ^ 2,t;θ 2)写为
在Eq。(2).然而,不完全/部分o 2,t观测严重地降低了的性能
对手。
因此,我们为目标提出了一个“跟踪器感知”模型。除了目标自己的
观察,我们另外将来自跟踪器的观察和动作馈送到目标网络,
以便丰富目标的输入信息。

增加辅助任务,预测追踪者的即时回报(参见图1中的TRP模块)。这个辅助任务可以作为一种“对手建模”,缓解自身策略学习的难度。
通过这样做,我们可以将这种“跟踪感知”策略的输出为:

在这里插入图片描述
其中,r̂1,t是对追踪者的预测即时回报,而o1,t、a1,t分别是追踪者的观察和行动。实证结果表明,跟踪器感知目标
产生更多样化的逃避政策,并最终帮助产生一个更强大的追踪器。请注意,我们不能对跟踪器应用这种技巧,因为跟踪器必须在测试/部署期间使用自己的观察

EXPERIMENTS

实验见论文

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值