Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记

最新推荐文章于 2022-04-06 19:02:46 发布

WaitPX

最新推荐文章于 2022-04-06 19:02:46 发布

阅读量526

点赞数 1

分类专栏：强化学习文章标签：目标跟踪深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_41439608/article/details/123184262

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记

1.主要贡献

（1）我们提出并开发了一种新的用于视觉跟踪的卷积循环神经网络模型。该方法直接利用深度学习模型的能力自动学习空间和时间约束。
（2）我们的框架是使用深度RL算法进行端到端训练的，在这种算法中，模型经过优化，以在长期内最大限度地提高跟踪性能。
（3）我们的模型是完全离线训练的。当应用于在线跟踪时，只需计算一次前向传递，无需在线微调，允许我们以超出实时的帧速率运行。
（4）我们的大量实验表明，与OTB公共跟踪基准中的最新技术相比，我们的跟踪算法具有出色的性能。

2.算法详解

2.1 网络模型

在这里插入图片描述
这个网络主要分为观测网络和循环网络，其中观测网络用于获取视频帧的特征信息，而循环网络主要将这些随时间变化的观测信息进行整合，并预测出每一帧的边界框信息。

2.2 观测网络

这里就简单说一下, $o_t$ 中包含视频帧的信息（绿色）以及位置信息（橙色），还有就是当真实边界框位置已知时，位置信息直接设置为标准化位置坐标，否则设置为0。

2.3 循环网络

这一块作者使用的是LSTM网络，值得注意的是由于我的输入中包含了视频帧的信息以及目标位置，因此隐藏状态中同样含有这些信息，这便于从隐藏状态中预测出目标位置，即隐藏状态的后四个元素。

2.4 训练

作者在训练的目标是最大化跟踪性能，因此采用了强化学习算法来解决这个问题。
论文中给出了两种奖励：
在这里插入图片描述

其中 $l_t$ 是模型预测的目标位置，而 $g_t$ 则是真实边界框的位置。
因此训练的目标可以演变为最大化奖励的总和，即 $R=\sum_{t=1}^T$ r_t。
值得注意的是在训练的早期使用的是第一种奖励，而在后期则使用第二种奖励。

2.5 梯度近似

训练的目标是在给定分布下最大化总奖励，因此我们将目标定义如下，
在这里插入图片描述
其中 $p(z_{1:T};W)$ 是在参数W条件下，生成动作序列的一个概率分布。
这里与强化学习中策略梯度类似，因此得到梯度，

由于动作是由概率分布确定的，因此可以对多次使用相同的策略，并通过对其求平均值来近似期望，
在这里插入图片描述
上式可以得到很好的梯度估计，但是梯度估计中存在高方差，导致训练过程很难收敛，因此作者采用如下方法很好的解决这个问题，

其中， $b_t=E_\pi[R_t]$ 。

2.6 反向传播

决定输出l的概率密度函数：
在这里插入图片描述
因此策略函数关于u的梯度如下所示：

由于µ是由W参数化的深度RL跟踪器的输出，因此可以通过标准反向传播轻松计算网络权重W的梯度。

2.7 整体流程

在这里插入图片描述

3.实验结果

在这里插入图片描述

WaitPX

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记1.主要贡献（1）我们提出并开发了一种新的用于视觉跟踪的卷积循环神经网络模型。该方法直接利用深度学习模型的能力自动学习空间和时间约束。（2）我们的框架是使用深度RL算法进行端到端训练的，在这种算法中，模型经过优化，以在长期内最大限度地提高跟踪性能。（3）我们的模型是完全离线训练的。当应用于在线跟踪时，只需计算一次前向传递，无需在线微调，允许我们以超出实时的帧速率运行
复制链接

扫一扫

专栏目录