《Collaborative Deep Reinforcement Learning for Multi-Object Tracking》泛读记录

概述

一种结合强化学习的多目标跟踪框架,目前Tracking by detection 方法依赖目标检测算法准确性,本文希望使用强化学习设计prediction-decision 网络 prediction 部分预测目标新的位置,decision 决定如何使用预测信息与检测信息(detection)。该方法将每个目标视作一个agent,预测网络预测位置,决策网络根据多个目标agent 间关联和与检测结果关联寻找最佳跟踪结果。

方法

网络输入一个视频,以及每帧的检测结果,每个已跟踪的目标作为一个agent,prediction network 预测新的目标位置,下图shift network 会输出新位置的相对位移,decision network 会输入agent 的预测位置和其它agent 的信息以及detection 决策对当前目标 agent进行block ,update, ignore 等操作

在这里插入图片描述

Prediction network 预测网络

输入目标初始位置处的图像块和历史轨迹,输出目标当前帧的位置偏移。四个变量是对应初始位置四个参数的相对偏移。
在这里插入图片描述
训练网络需要样本,在目标初始位置处周围随机选择边框和框内的图像块,训练网络使用预测框与真实框IoU最大
在这里插入图片描述
在这里插入图片描述

Collaborative Deep Reinforcement Learning

决策网络需要考虑每个agent 与 detection 间的影响与关联,这里只考虑与当前agent(我们要跟踪的目标)相似的其它agent (视频中其它目标)和相似的detection(检测器输出)。
结合边框IoU和目标外观特征衡量一对agent间的距离。
在这里插入图片描述第一项是IoU 信息,第二项是向量余弦距离。
衡量agent 与 detection 之间距离
在这里插入图片描述
计算完每对agent { p i , p j p_i, p_j pi,pj}, 每对agent 与detection { p i , p k ∗ p_i, p^*_k pi,pk}后,若 d ( p i , p j ) &lt; τ , d ( p i , p k ∗ ) &lt; τ d(p_i,p_j) &lt; \tau, d(p_i,p^*_k)&lt; \tau d(pi,pj)<τ,d(pi,pk)<τ说明存在相似的目标物agent 和相似的detection 则将三个图像块输入到决策网络,若 d ( p i , p j ) &gt; τ , d ( p i , p k ∗ ) &lt; τ d(p_i,p_j)&gt; \tau, d(p_i,p^*_k)&lt; \tau d(pi,pj)>τ,d(pi,pk)<τ说明不存在相似的目标物。则将干扰的目标物 p j p_j pj设为零图

update:对于检测结果可信则利用预测信息与检测信息更新agent 状态
ignore:检测结果不可信,只利用预测信息
block: 目标被遮挡,利用预测信息,并且不更新目标外观信息
delete:目标消失,删除目标agent

*回报函数
在这里插入图片描述
考虑当前跟踪的目标的回报 以及对相似目标的影响
在这里插入图片描述
在这里插入图片描述
论文中用于训练网络用的应该是Actor-Critic方法,
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值