Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 阅读笔记

最新推荐文章于 2022-03-03 22:39:10 发布

CsdnWujinming

最新推荐文章于 2022-03-03 22:39:10 发布

阅读量689

点赞数 3

分类专栏：目标跟踪

本文链接：https://blog.csdn.net/csdnwujinming/article/details/93744045

版权

目标跟踪专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

摘要

利用强化学习方法提出性能与速度均衡的跟踪器，可以离线训练，在线微调，并且基于深度强化学习半监督学习。

背景

目前跟踪方法主要问题，根据跟踪模型匹配在搜索区域选择候选框的方法低效，并且要求足够多的标记数据集。
本文提出动作决策网络(Action-decison network,ADNet)进行一系列动作决策跟踪目标。
在这里插入图片描述
第一列是两个跟踪视频的初始帧与目标位置，第二，三列是一系列动作后终止时目标跟踪结果。
ADNet 学习如何采取动作的策略，决策网络用卷积网络拟合，输入是裁剪过的目标图片输出是动作的条件分布，这种方法减少搜索步骤并精准定位无需边框回归。
ADNet 使用监督学习与强化学习分步训练，并在跟踪时在线调整网络。

ADNet

网络结构

在这里插入图片描述
网络由3个卷积层{conv1,conv2,conv3}以及4个全连接层{fc4,fc5,fc6,fc7}组成。网络输入前一帧目标位置处在当前帧中裁剪的图片，fc6输出动作的条件分布，fc7输出目标与背景的分布，选择概率最大的action后，存入动作队列中，与fc5输出合并作为fc6的输入，进行下一次迭代。

决策过程

在每一帧，agent 进行连续地决策过程，采取动作直到跟踪到目标或满足停止条件。终止时的目标状态作为下一帧目标的初始状态即 $s_{1,l+1}:=s_{T_l,l}$
Action.决策的动作空间包括11个离散行动。上下左右和两倍的上下左右，尺度的放大缩小和停止，每个动作用onehot编码
在这里插入图片描述
State.目标状态由元组表达 $p_t,d_t)$ , $p_t$ 是框内的三通道图像， $d_t \in R^{110}$ ，是前10个决策向量串联的一维向量。 $p_t$ 位置由 $b_t=[x^t, y^t, w^t,h^t]$ 确定。
状态转换函数.位置变换为 $b_{t+1}=f_p(b_t,a_t)$ ，位置变换是 $x^t, y^t, w^t,h^t]$ 变量固定量的增加与减少。
在这里插入图片描述
例如，动作为左移，则x变量减少一个 $\Delta x$ 。action dynamic function 是 $d_{t+1} = f_d(d_t,a_t)$ 。动作为‘停止’时，计算回报，并传入下一帧。
Reward.回报函数 $r (s)$ 与动作action 无关，在一帧中多次决策过程中都为0，直到停止才计算回报。计算方式为
在这里插入图片描述
即跟踪成功回报为+1，否则为-1，跟踪得分计算为 $z_t=r(s_T)$

Adnet 训练

训练分为监督学习与强化学习两个步骤。监督学习结果作为强化学习的预训练权重。网络还进行在线调整过程加强跟踪器鲁棒性。

监督学习阶段

训练的参数为 $W_{SL},\{w_1,..,w_7\}$ ，所有网络层参与训练。训练样本为图片patch ${p_j\}$ ,action label ${o_j^{(act)}\}$ ,class label ${o_j^{(cls)}\}$ ，动作向量 $d_j$ 不参与全设为0。样本图片 $p_j$ 由ground truth 增加高斯噪音获取，然后计算相应 ${o_j^{(act)}\}$
在这里插入图片描述
class label ${o_j^{(cls)}\}$ 为

损失为两个交叉熵误差之和

强化学习阶段

训练参数为 $W_{RL},\{w_1,...,w_6\}$ ,fc7不参与学习。强化学习采用的是策略梯度法，读者自行阅读材料Berkeley CS294-112 深度增强学习笔记 (4) 策略梯度法。随机选择一段序列 $\{F_l\}^L_{l=1}$ 和相应的ground truths ${G_l\}_{l=1}^L$ ，在强化学习的过程中会获得一系列的状态 ${s_{t,l}\}$ ，相应的actions ${a_{t,l}\}$ ，以及回报 ${r(s_{t,l})\}$ , $t =1,...,T_l, l=1,....,L$
action选择条件概率分布的最大的动作
在这里插入图片描述
跟踪得分计算为 $z_t=r(s_T)$ 。参数 $W_RL$ 的梯度为

来自强化学习策略梯度法，目标函数梯度为

期望值由多个样本平均近似。文章中还提到半监督的方法，就是说标记不全的样本也可以强化学习，方法是将有标签的两帧间的回报设为其中所有无标签帧的回报，感觉有点强行的意思。