《Relation Networks for Object Detection》笔记

最新推荐文章于 2021-12-17 17:21:25 发布

叫什么就是什么

最新推荐文章于 2021-12-17 17:21:25 发布

阅读量218

点赞数

分类专栏：笔记文章标签： object relation module object-object relation

本文链接：https://blog.csdn.net/qq_24548569/article/details/95756576

版权

笔记专栏收录该内容

49 篇文章 0 订阅

订阅专栏

Introduction

上下文信息或对象之间的关系有助于对象识别。该论文提出了一个对象关系模块，类似于自然语言处理的注意力机制。该对象关系模块使用对象的外貌特征和几何特征。后者模拟对象之间的空间关系，仅考虑它们之间的相对几何关系，使模块具有平移不变性——对象识别的理想属性。该对象关系模块对对象的外貌特征和几何特征进行加权操作得到新的特征，提高了目标检测的预测精度。同时，对象关系模块可以用来替换NMS，把NMS的去掉重复bounding box的操作定义成二分类问题——bounding box是正确的还是重复的。

Object Relation Module

该论文受到自然语言处理的注意力机制的启发。论文参考的注意力机制模型"Scaled Dot-Product Attention"的输入包括queries， $d_k$ 维的keys和 $d_v$ 维的values。对query和keys进行点乘来获取它们的相似度。给定一个query $q$ ，所有keys (组成矩阵 $K$ )和values (组成矩阵 $V$ )，输出为
$v^{out} = softmax (\frac{qK^t}{\sqrt{d_k}})V \tag{1}$

对象关系模块类似于公式(1)。一个对象包含几何特征 $\mathbf{f}_G$ 和外貌特征 $\mathbf{f}_A$ 。几何特征是简单的4维的对象bounding box，外貌特征是指神经网络的激活值特征。给定N个对象的输入集 $\{ (\mathbf{f}_{A}^n, \mathbf{f}_G^n) \}_{n=1}^N$ ，第n个对象的关系特征 $\mathbf{f}_R(n)$ 为
$\mathbf{f}_R(n) = \sum_{m} w^{mn} \cdot (W_V \cdot \mathbf{f}_A^m)$
即把第n个对象与其他对象(m)的关系定义成外貌特征的加权和。首先对外貌特征进行线性变换 $W_V \cdot \mathbf{f}_A^m$ ，然后使用关系权重 $w^{mn}$ 对变换后的特征进行加权和。

关系权重 $w^{mn}$ 的计算公式是
$w^{mn} = \frac{w_G^{mn} \cdot \exp (w_A^{mn})}{\sum_k w_{G}^{kn} \cdot \exp (w_A^{kn})}$
先算出对象m对对象n的重要性，然后normalize。

外貌权重 $w_A^{mn}$ 通过点乘操作得到，具体如下
$w_A^{mn} = \frac{dot(W_K \mathbf{f}_A^m, W_Q \mathbf{f}_A^n)}{\sqrt{d_k}}$
其中矩阵 $W_K$ 和 $W_Q$ 类似公式(1)的K和q，把原来的特征 $\mathbf{f}_A^n$ 和 $\mathbf{f}_A^m$ 映射到子空间中，然后点乘操作衡量他们之间的匹配程度。映射之后的特征维度是 $d_k$ 。

几何权重 $w_G^{mn}$ 的计算公式为
$w_G^{mn} = \max \{0, W_G \cdot \varepsilon_G(\mathbf{f}_G^m, \mathbf{f}_G^n)\}$
几何特征是相对几何特征 $(\log(\frac{|x_m - x_n|}{w_m}), \log(\frac{|y_m - y_n|}{h_m}), \log (\frac{w_n}{w_m}), \log(\frac{h_n}{h_m}))$ ，然后把特征嵌入到高维空间中 $\varepsilon_G(\mathbf{f}_G^m, \mathbf{f}_G^n)$ ，维度是 $d_g$ ，然后用 $W_G$ 进行变换，最后通过ReLU函数。

上面说了怎么计算对象n与其他对象的关系特征 $\mathbf{f}_R(n)$ ，这只是一种关系，对象n与其他对象可能有多种关系，作者设对象n与其他对象一共有 $N_r$ 种关系。作者把对象n与其他对象的 $N_r$ 种关系特征组合起来
$\mathbf{f}_A^n = \mathbf{f}_A^n + Concat[\mathbf{f}_R^1(n), \cdots, \mathbf{f}_R^1(N_r)], \text{for all n}$
为了匹配channel维度，每个 $W_V^r$ 的维度是 $\frac{1}{N_r}$ 。作者设置这些参数为 $N_r=16,d_k=64,d_g=64$ 。

整个对象关系模块的结构是
object relation module

对象关系模块可以嵌入到目标检测的流程中，如下图
object detector
对象关系模块既可以嵌入到全连接层之间，还可以用于删除重复bounding box的duplicate removal network。

嵌入到全连接层的对象关系模型可以表示成
enhanced
$r_1$ 和 $r_2$ 表示对象关系模块重复的次数，作者默认使用 $r_1=1,r_2=1$ 。
enhanced 2fc head and duplicate removal network

Duplicate removal network

Duplicate removal network目的是为了替换NMS，因为NMS没有考虑对象之间的关系信息。Duplicate removal 是一个二分类问题，对于每个ground truth对象，只有一个检测到的匹配对象记为correct，其它匹配的对象记为duplicate。

Duplicate removal network的结构如上图所示。该网络有3个输入，分别是对象的分类分数、1024维的对象特征和bounding box。对象分类分数有助于分类，先把分类分数变成降序排列的序号，然后把它嵌入到128维的高维空间。同样把对象特征映射到128维，和对象分类分数组合成新的外貌特征。外貌特征和bounding box进入对象关系模块，然后经过简单的线性变化和sigmoid函数，得到分数 $s_1$ 。最后分类分数 $s_0$ 和 $s_1$ 相乘得到最终结果。

Experiment

下面列一些对比实验结果
experiment

从上图可以发现网络加了对象关系模块后效果都得到提升。

叫什么就是什么

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Relation Networks for Object Detection》笔记

Introduction上下文信息或对象之间的关系有助于对象识别。该论文提出了一个对象关系模块，类似于自然语言处理的注意力机制。该对象关系模块使用对象的外貌特征和几何特征。后者模拟对象之间的空间关系，仅考虑它们之间的相对几何关系，使模块具有平移不变性——对象识别的理想属性。该对象关系模块对对象的外貌特征和几何特征进行加权操作得到新的特征，提高了目标检测的预测精度。同时，对象关系模块可以用于替换N...
复制链接

扫一扫