CornetNet

最新推荐文章于 2020-02-07 20:45:52 发布

maocaisheng

最新推荐文章于 2020-02-07 20:45:52 发布

阅读量3.2k

点赞数 3

分类专栏：论文阅读

本文链接：https://blog.csdn.net/u012938704/article/details/89674941

版权

论文阅读专栏收录该内容

12 篇文章 0 订阅

订阅专栏

CornerNet: Detecting Objects as Paired Keypoints

ECCV 2018 GitHub主页

概要：

单阶段检测器，但是速度还是很慢（在改进版CornerNet-Lite 中提到）；
Anchor-Free，是第一次尝试将目标框的检测（中心点+宽高）转换为关键点检测（左上点+右下点）；
COCO 数据集上单尺度测试精度为40.5，多尺度测试为42.5。

网络框图：

先看示意图。

(1) Heatmap 与角点预测

图中Heatmaps尺度为 $H\times W\times C$ ，C为类别数，每个通道使用sigmoid激活。以上图为例，两个Heatmaps中表示“人”这个类别的通道分别负责检测图片中所有“人”的左上点和右下点。
具体的角点（corner）检测方式应该是通过寻找热力图中大小超过一定阈值的位置，比如下图红点的位置（图片来自网络，只是为了方便说明），理想情况下，多少个红点表示图片中该类目标共有多少个。

在这里插入图片描述
训练时，Heatmap的监督信息通过以Ground Truth的每个角点为中心，一定半径（ $r=3\cdot\sigma$ ，3 $\sigma$ 原则）生成高斯分布。然后使用交叉熵损失函数（论文中使用Focal Loss）拟合这两个分布。

关于交叉熵函数的理解，附上我很喜欢的一篇博客：关于交叉熵在loss函数中使用的理解

在这里插入图片描述
图中红色为Ground Truth，绿色虚线表示的预测框的角点只要满足在橙色圈内，就能保证一个较高的IOU。

$i, j$ 表示每个热图中的每个位置， $y$ 为Ground Truth。

（2）Embedding Map 与角点匹配

接下来的问题是，同一类目标点的左上点和右下点都找到了，如何配对（group）？

文章中采用人体姿态中的关键点检测中的Associate Embedding策略，即为每个点生成一个Embedding向量，论文中向量长度为1，Embedding map的尺度为 $H\times W\times 1$ 。根据两点Embedding向量的距离判断是否属于同一目标。
训练时，采用两个损失函数：pull 以及 push，根据字面意思，pull减小属于同一目标的两个角点之间的距离，push增大不同目标的角点距离。
在这里插入图片描述
可以通过下图来理解（注：为了方便理解将两个角点绘制到一张图上）。

(3) offsets 与角点矫正

角点的位置是在Heatmap中确定的，需要将其映射回原图。但是由于下采样操作以及图片离散性质，会有映射误差:
在这里插入图片描述
$x_k$ 与 $y_k$ 为原图中的坐标， $\lfloor\frac{x_k}{n}\rfloor$ 与 $\lfloor\frac{y_k}{n}\rfloor$ 为映射在Heatmap中的位置，n为骨干网络的下采样系数（论文中为4，即输入为 $511\times 511$ ，Heatmap为 $128\times 128$ ）。
使用SmoothL1损失学习误差：
在这里插入图片描述

（4）整体网络框图

在这里插入图片描述

Corner Pooling 与 Backbone

Corner Pooling是一种特殊的Pooling机制，为了引入一些“先验知识”（个人理解）：判断一个点是否为左上点，首先从该点开始向右看（画），看是否是上框线，然后向下看（画），看是否是左框线。怎么看即为感受野，所以Corner Pooling的感受野是一条线，取该条线的最大值作为该点的值。相比传统Max Pooling取 $n\times n$ 矩形局域中的最大值，Corner Pooling专为角点检测而设计的Pooling 机制，引入了人为先验。
在这里插入图片描述

骨干网络堆叠了两个HourGlass结构，采用中间监督的训练方式，测试时丢弃中间输出。
在这里插入图片描述

maocaisheng

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
CornetNet

CornerNet: Detecting Objects as Paired KeypointsECCV 2018 GitHub主页概要：1.单阶段检测器，但是速度还是很慢（在改进版CornerNet-Lite 中提到）；2.Anchor-Free，是第一次尝试将目标框的检测（中心点+宽高）转换为关键点检测（左上点+右下点）；3.COCO 数据集上单尺度测试精度为40.5，多尺度测试为...
复制链接

扫一扫