center net&&center track

最新推荐文章于 2024-08-09 07:49:15 发布

Jelly_Believer

最新推荐文章于 2024-08-09 07:49:15 发布

阅读量348

点赞数

分类专栏： paper 文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/weixin_42438346/article/details/120419610

版权

paper 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

参考：https://mp.weixin.qq.com/s/FO8-uCkg6D6yDf7Cv01DAQ
网络结构：
centernet
在这里插入图片描述
resnet50作为backbone的话：

可以看到左边部分为encoder，得到的是一个（16，16，2048）的feature map，之后再经过decoder，即上采样，最后通过一个33和11的cov，得到head。

然后head再经过decode_bbox解码，得到最后所需的coordinate，confidence以及class。
decode_bbox解码包括nms等过程
（每次decode一张图片，每张图片的每个像素点都对应一个置信度）
在这里插入图片描述

centertrack
在这里插入图片描述

CenterTrack localizes objects and predicts their associations with the previous frame
即多出来一个分支用来做时间维度的association
The architecture of CenterTrack is essentially identical to CenterNet, with four additional input channels.
即相比于CenterNet, CenterTrack多出来四个额外的输入通道。

CenterTrack的输入为两个RGB图片（当前帧和前一帧）+一张heatmap图（前一帧物体中心分布的热力图），

解决的问题：
合并检测和追踪阶段到同一个网络。

三个不同的输入需要怎么进行信息的融合呢？
作者在这里用了非常简单的方法：先是通过简单的卷积层、批归一化层和激活函数，然后按位相加即可。
接着按位相加的特征图作为一个特征提取网络的输入
_network_factory = {
‘resdcn’: PoseResDCN,
‘dla’: DLASeg,
‘res’: PoseResNet,
‘dlav0’: DLASegv0,
‘generic’: GenericNetwork
}
这些网络有一个共同的特点：都会经历一系列下采样与一定比例的上采样，输入特征图宽高为（W,H）,输出特征图宽高为（W/4,H/4）

相较于CenterNet，CenterTrack的输出有四个，这四个输出都是由上述CNN获得的特征图分别通过各自的head模块获得的，如下图所示为简易版本
在这里插入图片描述

每个head由两个卷积层，中间一个RELU激活函数组成，非常简单。最终获得的四个输出特征图如下：
（1）HeatMap，大小为（W/4,H/4,80）,检测框中心点位置分布热力图
（2）Confidence，大小为（W/4,H/4,1），相关点为前景中心的置信度图
（3）Height&Width,大小为（W/4,H/4,1），点对应的检测框的宽高
（4）Displacement prediction, 大小为（W/4,H/4,2），检测框中心点在前后帧的位移（有点类似于光流）

note：Displacement prediction，具体解释为最上面链接解释
CenterTrack只关联连续两帧之间的检测框，那么很难形成长期的关联和依赖，这样其实非常容易产生ID切换等情况的发生。
虽然这种CenterTrack只关联连续两帧之间的检测框，但是却很好地平衡了检测速度和检测精度，通过实验发现，该办法精度还是不错的。

CenterNet的骨干网络之DLASeg
参考：https://www.cnblogs.com/pprp/p/13444577.html

CenterNet中使用的DLASeg是在DLA-34的基础上添加了Deformable Convolution后的分割网络。
其核心是DLAUP和IDAUP, 这两个类中都使用了两个Deformable Convolution可变形卷积，然后使用ConvTranspose2d进行上采样，具体网络结构如下图所示。

在这里插入图片描述