概述
一种结合强化学习的多目标跟踪框架,目前Tracking by detection 方法依赖目标检测算法准确性,本文希望使用强化学习设计prediction-decision 网络 prediction 部分预测目标新的位置,decision 决定如何使用预测信息与检测信息(detection)。该方法将每个目标视作一个agent,预测网络预测位置,决策网络根据多个目标agent 间关联和与检测结果关联寻找最佳跟踪结果。
方法
网络输入一个视频,以及每帧的检测结果,每个已跟踪的目标作为一个agent,prediction network 预测新的目标位置,下图shift network 会输出新位置的相对位移,decision network 会输入agent 的预测位置和其它agent 的信息以及detection 决策对当前目标 agent进行block ,update, ignore 等操作
Prediction network 预测网络
输入目标初始位置处的图像块和历史轨迹,输出目标当前帧的位置偏移。四个变量是对应初始位置四个参数的相对偏移。
训练网络需要样本,在目标初始位置处周围随机选择边框和框内的图像块,训练网络使用预测框与真实框IoU最大
Collaborative Deep Reinforcement Learning
决策网络需要考虑每个agent 与 detection 间的影响与关联,这里只考虑与当前agent(我们要跟踪的目标)相似的其它agent (视频中其它目标)和相似的detection(检测器输出)。
结合边框IoU和目标外观特征衡量一对agent间的距离。
第一项是IoU 信息,第二项是向量余弦距离。
衡量agent 与 detection 之间距离
计算完每对agent {
p
i
,
p
j
p_i, p_j
pi,pj}, 每对agent 与detection {
p
i
,
p
k
∗
p_i, p^*_k
pi,pk∗}后,若
d
(
p
i
,
p
j
)
<
τ
,
d
(
p
i
,
p
k
∗
)
<
τ
d(p_i,p_j) < \tau, d(p_i,p^*_k)< \tau
d(pi,pj)<τ,d(pi,pk∗)<τ说明存在相似的目标物agent 和相似的detection 则将三个图像块输入到决策网络,若
d
(
p
i
,
p
j
)
>
τ
,
d
(
p
i
,
p
k
∗
)
<
τ
d(p_i,p_j)> \tau, d(p_i,p^*_k)< \tau
d(pi,pj)>τ,d(pi,pk∗)<τ说明不存在相似的目标物。则将干扰的目标物
p
j
p_j
pj设为零图
update:对于检测结果可信则利用预测信息与检测信息更新agent 状态
ignore:检测结果不可信,只利用预测信息
block: 目标被遮挡,利用预测信息,并且不更新目标外观信息
delete:目标消失,删除目标agent
*回报函数
考虑当前跟踪的目标的回报 以及对相似目标的影响
论文中用于训练网络用的应该是Actor-Critic方法,