Real-time visual tracking by deep reinforced decision making学习笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_41439608/article/details/123049331

Real-time visual tracking by deep reinforced decision making学习笔记

1.拟解决问题

目标跟踪中，目标模板的不可预测和剧烈变化的解决方法主要是模板更新等，而模板的不准确和错误更新会导致跟踪器漂移，因此作者提出了一种基于强化学习的模板选择策略。

2.算法详解

2.1 网络模型

在这里插入图片描述
这个模型分为两个部分，第一部分是一个匹配网络，它通过在给定搜索图像中定位目标模板来生成预测热图；第二部分是一个策略网络，生成从匹配网络获得的预测图的归一化分数。

其中匹配网络的详细结构：
在这里插入图片描述

2.2 跟踪算法的整体流程

在这里插入图片描述
下面我简单说明一下上面的流程：
（1）搜索图片的获取：论文中提到作者使用的是使用模型预测得到的边界框信息对搜索图片进行裁剪，中心点位置不变，尺度增大2倍。
（2）模板的获取：作者使用的是设置了一个模板池，给定模板池的大小，在大小限制下，每一帧跟踪后，将预测得到的目标按照先进先出的思想更新模板池。
（3）搜索图像的偏移：分别按照上下左右四个方向进行偏移，x、y轴的偏移量分别与目标的长宽成固定比例。

2.3 强化学习部分

在这个算法中，作者使用的是策略梯度算法。

状态：跟踪过程中获得的模板与搜索图片经过匹配网络获得的预测热图的整体组合。
动作：从模板池中选择一个模板在搜索帧中定位目标。
奖励：追踪事件的成功或失败，跟踪器成功跟踪目标，产生超过预定义阈值的边界框重叠分数时，将给予正奖励；当追踪器因执行一连串糟糕的动作而失去目标时，将给予负奖励。

2.4 策略网络的训练

整体流程：
在这里插入图片描述
这里我将针对上图做一些说明，
（1）这个算法采用了累计梯度的方式来训练策略网络，因此上图中eq.2如下定义，

其中L是一个跟踪视频序列的帧数， $\beta \in(0,1]$ 是一个折扣率，更早的梯度拥有更小的权重。
（2）经验回放在保存的时候需要分别保存成功经验和失败经验。
（3）在每一个训练步骤中，累计梯度是5L的梯度的和，也就是5个跟踪序列中梯度的和。在每一个视频跟踪序列后，需要使用4L个梯度再次进行梯度更新，而4L中包含2L个成功经验和2L个失败经验。