CenterTrack:Tracking Objects as Points

最新推荐文章于 2024-03-23 09:48:19 发布

就叫阿水

最新推荐文章于 2024-03-23 09:48:19 发布

阅读量1.5k

点赞数

分类专栏：目标跟踪

本文链接：https://blog.csdn.net/weixin_42923416/article/details/110500519

版权

目标跟踪专栏收录该内容

3 篇文章 0 订阅

订阅专栏

由CenterNet伸展过来，通过在原CenterNet模型上，输入增加4通道(上一帧图像和检测结果)，输出增加2通道(位置偏移)。通过位置偏移和上一帧的对象关联起来，实现多目标跟踪

CenterNet

一个Anchor free的目标检测模型，把目标视为一个点。其输出为位置+Size，通过位置和Size恢复bounding Box。

当训练时的位置label为以物体中心为均值的高斯分布(方差与物体大小有关)。当存在多个对象时，高斯分布交集部分，其label取较大值的那个。因此其label $Y\in [0,1]^{{W\over R} \times {H \over R}\times C}$ ，其中 $R$ 为下采样倍率， $C$ 为类别数，即COCO中为80。其训练loss即为Focal loss（无类别平衡系数,而是通过指数 $\alpha=2$ 和 $\beta=4$ 来平衡类别权重）：
$L_{k}=\frac{1}{N} \sum_{x y c}\left\{\begin{array}{ll} \left(1-\hat{Y}_{x y c}\right)^{\alpha} \log \left(\hat{Y}_{x y c}\right) & \text { if } Y_{x y c}=1 \\ \left(1-Y_{x y c}\right)^{\beta}\left(\hat{Y}_{x y c}\right)^{\alpha} \log \left(1-\hat{Y}_{x y c}\right) & \text { otherwise } \end{array}\right.$

当测试时，predicate的局部最大值（且大于阈值）即为检测对象所在位置（局部最大值仅与周围8个点的值对比）。同时其值即为置信度Confidence。

同时还有个双通道的输出 $\hat{S} \in \mathbb{R}^{\frac{W}{R}\times \frac{H}{R} \times 2}$ 用于size尺度回归。这部分仅对物体的中心点计算L1 Loss
$L_{\text {size}}=\frac{1}{N} \sum_{i=1}^{N}\left|\hat{S}_{\mathbf{p}_{i}}-\mathbf{s}_{i}\right|$

CenterTrack

在这里插入图片描述
模型输入为当前帧 $Image \ I^t$ ，上一帧 $Image \ I^{t-1}$ 和上一帧所有跟踪对象 $Tracks \ T^{t-1}$ 。其中 $Tracks \ T^{t-1}$ 是把上一帧的所有检测到的对象，把每个对象(大于阈值)转为一个高斯分布，然后叠在一个heatmap里。与CenterNet里生成label方式不同的是，CenterNet里是考虑类别的，不同类别的物体在不同的channel里。而这里不考虑类别，所以只有一个通道。

模型输出结果除了CenterNet的检测结果( $\text { Detections } \hat{Y}^{(t)} \quad \text { size } \hat{S}^{(t)}$ )外，多加了个2通道的 $\text {Offset} \ \hat O^{(t)}$ ,用于得到跟踪对象的偏移量，训练Loss也是L1，也是只对物体的中心点计算损失。这部门就类似于光流预测（中心点的光流）

得到偏移量后，就可以将两帧关联起来了，然后根据当前帧的检测结果的置信度 $w$ 从高到低，按最近匹配去关联上一帧的未匹配对象。若在半径 $k$ 内没匹配到对象，则认为是新目标。

Training on video data

在infer时，输入的 $Tracks \ T^{t-1}$ 可能存在很多干扰，假正例，误差，漏检等。因此在训练时也加入一些抖动模拟误差（Tips：有点奇怪为什么还要在输入加上 $Tracks \ T^{t-1}$ ）

就叫阿水

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
CenterTrack:Tracking Objects as Points

由CenterNet伸展过来，通过在原CenterNet模型上，输入增加4通道(上一帧图像和检测结果)，输出增加2通道(位置偏移)。通过位置偏移和上一帧的对象关联起来，实现多目标跟踪CenterNet一个Anchor free的目标检测模型，把目标视为一个点。当训练时的位置label为以物体中心为均值的高斯分布(方差与物体大小有关)。当存在多个对象时，其label取较大值的那个。因此其labelY∈[0,1]WR×HR×CY\in [0,1]^{{W\over R} \times {H \over R
复制链接

扫一扫