CVPR2018 oral《Relation Networks for Object Detection》论文阅读笔记

最新推荐文章于 2022-03-12 10:34:52 发布

ryERO

最新推荐文章于 2022-03-12 10:34:52 发布

阅读量383

点赞数 1

分类专栏： Object Detection 文章标签：深度学习

本文链接：https://blog.csdn.net/u011627998/article/details/103921703

版权

Object Detection 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了《Relation Networks for Object Detection》的核心内容，该论文提出的关系网络可以用于目标检测，提高检测结果，替代NMS。文章详细解析了关系模块的设计，包括Scaled Dot-Product Attention的原理和关系权重的计算，并探讨了如何使用关系网络去除重复检测框，实现全端到端的目标检测网络。

摘要由CSDN通过智能技术生成

前言

最近希望能够寻找一个NMS的替代方案，能够去除冗余检测框，并且不阻断梯度传递。这篇论文的核心内容是设计了一种关系网络，输入输出维度相等，能嵌入到目标检测任务中提高检测结果，也能代替NMS作为后处理模块。论文主要参照了Attention方法中的一些思想，设计的Relation Module是由《Attention is all you need》论文中self-attention模型改进而来。
本人对NLP完全小白，因此翻了翻attention的一些资料，在这里推荐一下：
[1] https://zhuanlan.zhihu.com/p/47063917
[2] https://blog.csdn.net/yujianmin1990/article/details/85221271
关键词：Relation Module、Duplicate Removal

注：编者水平有限，如有谬误，欢迎指正。若要转载，请注明出处，谢谢。
联系方式：
邮箱：yue_zhan@yahoo.com
QQ：1156356625

Object Relation Module

首先回顾一下Scaled Dot-Product Attention，这是作者relation module的构建原型，这方面推荐[1]中介绍得很详细。上公式 $v^{out}=softmax(\frac{qK^t}{\sqrt{d_k}})V\tag{1}$ 这里attention的本质是一个加权和，通过 $q$ 和 $K$ 的点乘表示相似度，再通过 $s o f t m a x$ 得到权值分布，最后对 $V$ 求加权和得到当前“时刻”v输出。这里不对公式在NLP中具体含义做展开，只要理解这个Attention本质为加权和即可。
有了公式(1)，就可以对论文中的relation module进行拆解，上构造图
在这里插入图片描述
这里的 $f_A$ 和 $f_G$ 代表检测目标的纹理特征和几何特征，分别为卷积层feature和bbox坐标。这里的 $m$ 和 $n$ 挺容易误解，根据文义应该是代指任意两个目标， $\{f^m_G,f^n_G\}$ 则代表任意两目标对。从左部分可以看出module输入输出维度保持不变，每个relation模块出来后用concat是考虑到计算代价问题。
右半部分本质是公式(1)，橙色框scaled dot输出如果直接与 $W_V$ 加权点乘，则与公式(1)一致。因此有 $\textup f_R(n)=\sum_m\omega^{mn}\cdot(W_V\cdot\textup f^m_A)\tag 2$ 其中 $\omega^{mn}$ 与公式(1)中 $s o f t m a x$ 等价， $W_V\cdot\textup f^m_A$ 是对纹理特征做维度转换，等价于(1)中V。继续看 $\omega^{mn}$ 的计算方式 $\omega^{mn}=\frac{\omega^{mn}_G\cdot \textup{ exp}(\omega^{mn}_A)}{\sum_k{w^{kn}_G\cdot \textup{exp}(\omega^{mn}_A)}}\tag3$ 可以看出，除去 $\omega^{mn}_G$ ，则完全等价于公式(1)的 $s o f t m a x$ ，文章原文：The usage of geometric weight Eq. (5) in the attention weight Eq. (3) makes our approach distinct from the basic attention Eq. (1). 也印证了这一观点。
公式(4)中 $\omega_A$ 计算方式与公式(1)一致，这里两个 $W$ 将特征投影到子空间，然后点乘计算两个目标纹理特征的相似度。 $\omega^{mn}_A=\frac{dot(W_K\textup f^m_A,W_Q\textup f^n_A)}{\sqrt{d_k}}\tag4$ 文中几何权重 的计算方式为 $\omega^{mn}_G=max\{0,W_G\cdot\varepsilon_G(\textup f^m_G,\textup f^n_G)\}\tag 5$ $\varepsilon_G将$ 两个目标的几何特征embedded to a high-dimensional( $d_g$ ) representation by method in <Attention is all you need>，4-d几何特征向量形式为 $(log(\frac{|x_m-x_n|}{w_m}),log(\frac{|y_m-y_n|}{h_m}),log(\frac{w_n}{w_m}),log(\frac{w_n}{w_m}))^T$ ， $W_G$ 和 $\textup{ReLU}$ 将映射过后的相似度归一化并clip掉负值部分。
当然作者并没有直接解释公式(5)的设计理念，而是通过对照实验验证效果。通过调整 $\omega^{mn}_G$ 形式，验证其效果。module内参数的优化算法部分此处省略。

Relation for Duplicate Removal

中间跳过了relation module嵌入目标检测网络的部分，因为我的关注点在于其如何取代NMS，从而使整个网络fully end-to-end。下图是duplicate removal模块的框架

$s_0$ 和 $s_1$ 分别表示classification score和degree of confidence(取值0到1)，这里关于score有个疑惑是，原文写了classification score，但是又说N objects are sorted in descending order of their scores，所以这个score感觉又像是检测的置信度，头大。rank embed部分没有理解，希望大佬们解答。
通过relation module后， $W_s$ 与 $\textup sigmoid$ 组成的线性分类器是完成duplicate操作的核心，可以把relation module理解为一个特征提取模块，然后接分类器。还有一个问题是文中计算IoU的部分，两张图上都没有画出，个人理解是网络中并不包含NMS常见的计算IoU。而是在计算loss时，需要评估与ground truth最匹配的检出框，而以不同的阈值得到的IoU结果不同。文中的multiple thresholds对 $W_s$ 的修改也是通过设置不同IoU得到的matched GT，分别与 $s_1$ 计算loss，训练后得到的对应阈值的分类器，在inference阶段仅做一个平均。也就是说，inference阶段不需要计算IoU。这里纠结了很久，为什么不需要NMS的情况下还需要计算IoU，且不会干扰梯度。

结论

至此，文章的核心内容就解读完毕。这篇论文反复看了有2、3遍，能找到的笔记资料也都看过，但还是觉得大部分笔记都仅仅是翻译原文，或者讲的过于简略。因此我个人的理解也还是不够透彻，所以关于模型替代NMS的部分还希望大佬斧正。
接下来会找源码来看，不过快过年了也没有太大动力hhh。

ryERO

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CVPR2018 oral《Relation Networks for Object Detection》论文阅读笔记

这篇论文的核心内容是设计了一种关系网络，输入输出维度相等，能嵌入到目标检测任务中提高检测结果，也能代替NMS作为后处理模块。
复制链接

扫一扫

专栏目录