Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记
1.主要贡献
(1)我们提出并开发了一种新的用于视觉跟踪的卷积循环神经网络模型。该方法直接利用深度学习模型的能力自动学习空间和时间约束。
(2)我们的框架是使用深度RL算法进行端到端训练的,在这种算法中,模型经过优化,以在长期内最大限度地提高跟踪性能。
(3)我们的模型是完全离线训练的。当应用于在线跟踪时,只需计算一次前向传递,无需在线微调,允许我们以超出实时的帧速率运行。
(4)我们的大量实验表明,与OTB公共跟踪基准中的最新技术相比,我们的跟踪算法具有出色的性能。
2.算法详解
2.1 网络模型
这个网络主要分为观测网络和循环网络,其中观测网络用于获取视频帧的特征信息,而循环网络主要将这些随时间变化的观测信息进行整合,并预测出每一帧的边界框信息。
2.2 观测网络
这里就简单说一下, o t o_t ot中包含视频帧的信息(绿色)以及位置信息(橙色),还有就是当真实边界框位置已知时,位置信息直接设置为标准化位置坐标,否则设置为0。
2.3 循环网络
这一块作者使用的是LSTM网络,值得注意的是由于我的输入中包含了视频帧的信息以及目标位置,因此隐藏状态中同样含有这些信息,这便于从隐藏状态中预测出目标位置,即隐藏状态的后四个元素。
2.4 训练
作者在训练的目标是最大化跟踪性能,因此采用了强化学习算法来解决这个问题。
论文中给出了两种奖励:
其中
l
t
l_t
lt是模型预测的目标位置,而
g
t
g_t
gt则是真实边界框的位置。
因此训练的目标可以演变为最大化奖励的总和,即
R
=
∑
t
=
1
T
R=\sum_{t=1}^T
R=∑t=1Tr_t。
值得注意的是在训练的早期使用的是第一种奖励,而在后期则使用第二种奖励。
2.5 梯度近似
训练的目标是在给定分布下最大化总奖励,因此我们将目标定义如下,
其中
p
(
z
1
:
T
;
W
)
p(z_{1:T};W)
p(z1:T;W)是在参数W条件下,生成动作序列的一个概率分布。
这里与强化学习中策略梯度类似,因此得到梯度,
由于动作是由概率分布确定的,因此可以对多次使用相同的策略,并通过对其求平均值来近似期望,
上式可以得到很好的梯度估计,但是梯度估计中存在高方差,导致训练过程很难收敛,因此作者采用如下方法很好的解决这个问题,
其中,
b
t
=
E
π
[
R
t
]
b_t=E_\pi[R_t]
bt=Eπ[Rt]。
2.6 反向传播
决定输出l的概率密度函数:
因此策略函数关于u的梯度如下所示:
由于µ是由W参数化的深度RL跟踪器的输出,因此可以通过标准反向传播轻松计算网络权重W的梯度。
2.7 整体流程
3.实验结果