阅读心得：CenterNet:Objects as Points

最新推荐文章于 2021-07-25 20:43:59 发布

三木ぃ

最新推荐文章于 2021-07-25 20:43:59 发布

阅读量810

点赞数 3

分类专栏：目标检测文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_41214679/article/details/109378537

版权

目标检测专栏收录该内容

10 篇文章 1 订阅

订阅专栏

链接: CenterNet:Objects as Points.

CenterNet阅读心得

一、摘要
二、介绍
三、实现细节
四、总结

一、摘要

大多的成功的目标检测任务，通过迭代一个详细的目标位置列表和对应的分类，显得十分的低效且浪费。我们的模型采取了基于目标Bbox中心点来建模进行目标检测。我们的检测器使用关键点估计来找到中心点，并且回归到所有目标的属性（例如大小，3D位置，方向甚至姿态）。实验显示，比相应的基于框的要快速，高效，且更简单，能够达到实时。

创新点：
第一，我们分配的锚点仅仅是放在位置上，没有尺寸框。没有手动设置的阈值做前后景分类。（像Faster RCNN会将与GT IOU >0.7的作为前景，<0.3的作为背景，其他不管）；
第二，每个目标仅仅有一个正的锚点，因此不会用到NMS，我们提取关键点特征图上局部峰值点（local peaks）；
第三，CenterNet 相比较传统目标检测而言（缩放16倍尺度），使用更大分辨率的输出特征图（缩放了4倍），因此无需用到多重特征图锚点；

二、介绍

在这里插入图片描述
CenterNet使用单张图片 $I\in{R^{WXHX3}}$ 作为输入，并且为每个类 $C\in\{0,1…c-1\}$ 产生一个预测集合 ${(p_i，s_i)\}_{i=0}^{N-1}$ 。CenterNet通过确定中心点 $p∈R^{2}$ 然后回归获得目标边界框的高和宽 $s∈R^2$ 。CenterNet会生成一个低分辨率的热图 $\hat{Y} \in[0,1]^{\frac{W}{R}×\frac{H}{R}×C}$ 以及通过下采样因子R为4获得的一个大小图 $\hat{S} \in{R}^{\frac{W}{R}×\frac{H}{R}×2}$ 。热图 $\hat{Y}$ 中每个局部最大值（峰值，3X3大小） $\hat{p} ∈R^2$ 对应于一个检测目标的中心，相应的其置信度 $\hat{w} =\hat{Y}_{\hat{p}}$ ，目标大小为 $\hat{s}=\hat{S}_{\hat{p}}$ 。
对于一张给定的训练目标集合 ${p_0,p_1,…\}$ 的图片，其focal损失为：

$L_{k}=\frac{1}{N} \sum_{x y c}\left\{\begin{array}{ll}\left(1-\hat{Y}_{x y c}\right)^{\alpha} \log \left(\hat{Y}_{x y c}\right) & \text { if } Y_{x y c}=1 \\ \left(1-Y_{x y c}\right)^{\beta}\left(\hat{Y}_{x y c}\right)^{\alpha} \log \left(1-\hat{Y}_{x y c}\right) & \text { otherwise }\end{array}\right.$

其中 $Y\in[0,1]^{\frac{W}{R}×\frac{H}{R}×C}$ 是每个注释目标在真实热图上的对应值。N是目标个数，α=2，β=4是超参。
对于C中每个类的中点p，使用渲染函数 $Y = R(\{p0,p1,...\})$ 将每个中点渲染成 $Y_{(:,:,c)}$ 中高斯分布的峰值点（中心值最大为1）。同时可以获得下面点返回边界框大小的置信度。在 $q\in{R^2}$ 点的渲染可以定义为（如果同一类的两个高斯函数重叠，我们取元素的最大）：
$\mathcal{R}_{\mathbf{q}}\left(\left\{\mathbf{p}_{0}, \mathbf{p}_{1}, \ldots\right\}\right)=\max _{i} \exp \left(-\frac{\left(\mathbf{p}_{i}-\mathbf{q}\right)^{2}}{2 \sigma_{i}^{2}}\right)$
$p_i$ 是热图上的坐标，q为低分辨率的等效坐标。z高斯核 $σ$ 是对象尺寸自适应的标准偏差（参考Law, H., Deng, J.: Cornernet: Detecting objects as paired keypoints. In: ECCV (2018)）。
大小预测是基于中心点位置的监督回归， $s_i$ 表示第 $i$ 个目标在位置 $p_i$ 的边界框大小。大小预测损失为： $L_{\text {size}}=\frac{1}{N} \sum_{i=1}^{N}\left|\hat{S}_{\mathbf{p}_{i}}-\mathbf{s}_{i}\right|$

使用类似的L1损失: $L_{off}=\frac{1}{N} \sum_{p}\left|\hat{O}_{\tilde{p}}-\left(\frac{p}{R}-\tilde{p}\right)\right|$ CenterNet会进一步回归一个精确的中心局部位置。
CenterNet的整体损失是三个损失项的加权总和:中心位置的focal损失、大小的size损失和中心位置偏移损失回归。即 $L_{\text {det}}=L_{k}+\lambda_{\text {size}} L_{\text {size}}+\lambda_{\text {off}} L_{\text {off}}$ 原文设置 $\lambda_{size}=0.1$ , $\lambda_{off}=0.1$ 。其中关键点 $\hat{Y}$ ，补偿 $\hat{O}$ ，大小 $\hat{S}$ 使用单独的网络预测，网络整体在每个点预测一个C+4维度的输出。所有输出共享一个全卷积网络。
在这里插入图片描述
从点回归到边界框： 在推理时，我们首先分别提取每个类别的热图中的峰值。检测所有大于或等于其8个相邻节点的响应，并保持前100个峰值。让 $\hat{P}_c$ 作为类c的n个检测中心的集合， $\hat{P}_c=\{(\hat{x_i},\hat{y_i})\}_{i=1}^n$ .每个关键点位置由一个整数坐标给出 $x_i, y_i)$ 。
使用关键点的值 $\hat{Y}_{x_i, y_i,c}$ ，并生成一个边界框位置：
$\begin{array}{l} \left(\hat{x}_{i}+\delta \hat{x}_{i}-\hat{w}_{i} / 2, \quad \hat{y}_{i}+\delta \hat{y}_{i}-\hat{h}_{i} / 2\right. \\ \left.\hat{x}_{i}+\delta \hat{x}_{i}+\hat{w}_{i} / 2, \hat{y}_{i}+\delta \hat{y}_{i}+\hat{h}_{i} / 2\right) \end{array}$
其中 $\left(\delta \hat{x}_{i}, \delta \hat{y}_{i}\right)=\hat{O}_{\hat{x}_{i}, \hat{y}_{i}}$ 是补偿预测， $\left( \hat{w}_{i}, \hat{h}_{i}\right)=\hat{S}_{\hat{x}_{i}, \hat{y}_{i}}$ 是大小预测。所有的输出都是直接从关键点估计产生的，不需要基于IOU的非极大值抑制(NMS)或其他后处理。