目标检测论文阅读：Multi-scale Location-aware Kernel Representation for Object Detection（CVPR2018）

最新推荐文章于 2024-08-15 13:05:48 发布

疯狂的兔子Philip

最新推荐文章于 2024-08-15 13:05:48 发布

阅读量1.6k

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/weixin_39506322/article/details/85141523

版权

目标检测专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Multi-scale Location-aware Kernel Representation for Object Detection

论文链接：https://arxiv.org/abs/1804.00428

代码链接：https://github.com/Hwang64/MLKP

（如有解读不对，请望指出纠正）

论文思想来源：最近对具有挑战性的细粒度视觉分类的研究表明，与一阶分类相比，高阶统计表示可以捕获更多的判别信息同时获得更好的提升。

发现问题：近年来的分类方法表明，将高阶统计量集成到深度卷积神经网络中可以取得显著的改进，但是他们的目标是通过丢弃位置信息对整个图像进行建模，从而使其不能直接用于目标检测。因此作者萌生把高阶统计信息集成到基于深度学习的目标检测任务中的想法。尝试在目标检测中利用高阶统计信息，为生成更多的能判别表示的候选框从而提高目标检测器性能。

解决问题：作者提出了一个多尺度位置感知核(MLKP)模型，用于捕获proposals过程中深层特征的高阶统计信息。其中包括：

提出了一种新颖的多尺度位置感知核表示（MLKP），首次尝试将object proposals的判别性高阶统计量结合到目标检测任务中。
MLKP是基于多项式核近似的，因此它可以有效地生成低维高阶表示。此外，MLKP固有的位置记忆性和敏感性保证了它可以灵活地用于目标检测任务当中。
除了高阶核表示，还引入了一个可训练的location-weight结构来度量不同位置的贡献，使我们的表示位置变得敏感。

模型架构

1、Multi-scale Feature Map

Faster R-CNN只是把backbone最后一层卷积层的特征图用作目标检测任务。而新的工作中表明，backbone中拥有高分辨率的靠前的卷积层的特征图有助于目标检测任务中检测小的目标。证明了通过结合不同卷积层的特征图可以提升目标检测的性能。

但本文不同的是，与上述多尺度策略有所不同，本文建议利用每个convolution block的多层特征图，如把convolution block4中的conv4_2层和conv4_3层进行concatenate(两特征图通道数合并)，convolution block5中的conv5_2层和conv5_3层进行concatenate(两特征图通道数合并)，然后再进行Multi—scale Feature Integration多尺度特征结合。