CornerNet论文笔记

最新推荐文章于 2022-04-19 10:43:39 发布

Pumb4a

最新推荐文章于 2022-04-19 10:43:39 发布

阅读量224

点赞数

文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/Pumb4a/article/details/104375341

版权

粗读概念

1. 论文提出了什么?

论文提出了一种不需要 $anchor\ boxes$ 的目标检测的方法
提出了一种新的 $c o r n e r - p o o l i n g$ 操作
属于 $a n c h o r - f r e e$ 的方法

2. 论文为什么提出这种方法?解决了什么问题

此前的 $one-stage\ detecor$ 需要在图像上生成许多 $a n c h o r b o x e s$ , 但是只有少量的 $b o x$ 能够在
覆盖到有目标的地, 过多的 $negative\ box$ 导致样本不平衡,从而训练缓慢
需要 $a n c h o r b o x e s$ 的方法通常需要设置许多超参数, 例如 $b o x$ 数量, 长宽比, 大小等, 这些通常需要一些经验来支持更好的结果

3. 方法描述

在这里插入图片描述

通过卷积网络生成一组 $top-left\ corner$ 和一组 $bottom-right\ corner$ 以及它们对应的 $embedding\ vector$ , 这个 $v e c t o r$ 的作用是匹配属于一个 $o b j e c t$ 的左上右下的角点

4. corner pooling

作者提出 $corner\ pooling$ 是因为实际中, $object\ box$ 的角点通常是在 $o b j e c t$ 的外面的, 所以没有本地的依据来进行调整, 如下图所示, 作者提出一种新的 $cornet\ pooling$ 来解决这个问题
具体是对角点的水平和垂直两个方向,分别在 $feature\ map$ 上取各个 $c h a n n e l$ 上的最大值, 然后再加起来
但是文中提到的两个 $feature\ map$ 是指的什么呢??
以 $top-left\ corner$ 为例, 是 $hourglass\ network$ 生成 $feature\ map$ 分别做水平和垂直 $p o o l i n g$ 生成 $t_{ij}$ 和 $l_{ij}$ 的, 本质上是一个 $f e a t u r e m a p$

精读部分

3 CornerNet

3.1 overview

$C o r n e r N e t$ 通过 $Human\ Pose\ Estimation$ 领域中 $Hourglass\ Network$ 作为 $b a c k b o n e$ 提取初级特征, 然后将初级特征输入到 $Top-left\ Corners$ 和 $Bottom-right\ Corners$ 两个预测模块中, 经过 $corner\ pooling$ 及后续的 $n n$ 得到 $Heatmaps,\ Embeddings,\ Offsets$ 三个输出, 其中 $H e a t m a p s$ 为 $C \times H \times W$ 的 $binary\ mask$ , 有C个 $c h a n n e l s$ 分别对应C个 $c l a s s e s$ , $H \times W$ 分别对应图上的点是否有 $C o r n e r s$ , $E m b e d d i n g s$ 用来对预测的两种 $c o r n e r s$ 的 $g r o u p i n g$ ,也就是配对, $O f f s e t s$ 用来微调预测角点的值, 改善网络对小目标的预测结果

3.2 Detecting Corners

这个部分主要讲了两个内容:

$N e g a t i v e P o s i t i o n$ 的定义: 以 $gt\ position$ 为中心, $r a d i u s$ 为半径的圆外的点, 其中radius的大小有 $g t b b o x$ 的大小确定,原则如下图所示,大意是 $r a d i u s$ 中点组成的 $b o x$ 与 $g t b o x$ 的 $I O U$ 最小为 $t$ , 文中的括号里 $0 : 3$ 没看懂,感觉是笔误,应该是 $0.3$ 吧(这个不太确定). 对于 $n e g a t i v e p o s i t i o n$ 的 $p e n a l t y$ , 作者使用 $Gaussians=e^{-(x^2+y^2)/2\times\sigma^2}$ 生成一个 $gt\ heatmap$ 为 $y_{cij}$ , 以 $gt\ position$ 为中心,方差为 $r a d i u s / 3$ , 从公式可以看到对于生成的 $h e a t m a p$ 某个点若对应 $y_{cij}=1$ (即对应 $gt\ position$ ),按照上式求 $l o s s$ , 对于其他 $negative\ position$ ,越接近 $gt\ position$ , 那么 $1-y_{cij})$ 则越小, 也就是惩罚越小,来计算 $l o s s$ .
$O f f s e t s$ : 许多网络下采样后将预测的左边remap回原始图像时通常会损失一些精确度, 所以作者在 $C o r n e r N e t$ 中设置 $o f f s e t s$ 来微调预测的坐标使结果更准确.其中 $(2)$ 式为计算偏差公式, 那么 $\omicron_{k}$ 和 $\hat\omicron_{k}$ 分别对应 $gt\ offset$ 与 $predict\ offset$ , 最后通过 $S m o o t h L 1 L o s s$ 来学习. $S m o o t h L 1 L o s s$ 是 $Fast\ RCNN$ 中提出的,相比 $L 1$ 收敛更快,相比 $L 2$ 对于离群点、异常值更加鲁棒,训练不容易跑飞

在这里插入图片描述

3.3 Grouping Corners

这个部分讲如何将预测的 $c o r n e r s$ 进行配对,文中写的方法是based on the distance between the embeddings of corners ,但是具体距离的计算公式什么,文中没有给出,也许可以在作者提到的 $N e w e l l$ 的论文中有提到, 此外作者引用 $N e w e l l$ 论文中 $p u l l - p u s h$ 的方法训练使成对的 $c o r n e r$ 接近,不成对的进行远离.

在这里插入图片描述

3.4 Corner Pooling

大概原理如下图所示, 文中说的 $v e c t o r$ 应该指的是 $1\times channel$ , 也就是从 $s p a t i a l$ 的每个点看向 $c h a n n e l$ 方向, 下图是一个 $c h a n n e l$ 的 $top-left\ corner\ pooling$ 情形,分别从右往左与从下往上 $max\ pooling$
在这里插入图片描述

4 Experiments

实验中作者验证了论文几个 $key\ components$ 的结果,总结如下:

不同 $p o o l i n g$ 方式的对比显示 $c o r n e r p o o l i n g$ 在 $A P$ 上提高2%
$negative\ penalty$ 中 $r a d i u s$ 的三种方式对比, 不要 $r a d i u s$ 效果最差, $fixed\ radius$ 提高接近3%, $object-dependent\ radius$ 提高5.5%(这个是文中使用的方法)
在 $b a c k b o n e n e t w o r k$ 的对比中 $H o u r g l a s s + c o r n e r s$ 比 $F P N + c o r n e r s$ 提到6%多, 性能差别还是挺大的.

Pumb4a

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CornerNet论文笔记

0. mentioned unfamiliar conceptsHourglassnetworkHourglass networkHourglassnetworkUnnormalized2DGaussianUnnormalized 2D GaussianUnnormalized2DGaussianFocallossFocal lossFocallossSmoothL1Lo...
复制链接

扫一扫