Visual Relationship Detection with a Deep Convolutional Relationship Network （基于深度卷积关系网络的视觉关系检测）

最新推荐文章于 2024-06-11 09:46:35 发布

AIinit

最新推荐文章于 2024-06-11 09:46:35 发布

阅读量1k

点赞数

文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/ITGuoZihan/article/details/109764563

版权

Abstract

视觉关系是图像理解的关键，并且适用于许多任务（如image caption和VQA）。尽管在许多视觉任务上取得了很大的进展，但是由于主-谓-宾三元组广泛分布和分布不平衡的建模复杂性，关系检测仍然是一个具有挑战性的问题。本文提出了一个新的框架来捕捉主体和客体在特征图中的相对位置和尺寸，并添加一个新的分支来过滤一些不太可能有关系的对象对。此外，还训练了一个激活函数来提高给定对象对的某些特征图的概率。

Introduction

视觉关系检测在图像理解中起着重要作用。通过检测特定的关系，如<person-ride-bike>或<person-push-bike>，可以获得有用的信息来描绘场景。视觉关系被定义为一对由谓语连接的对象，通常以主谓宾的形式表示为三元组。谓语可以是以下几种类型：
（1）动词（<person-kick-ball>）；
（2）空间（<person-on top of-ramp>）；
（3）介词（<motorcycle-with-wheel>）；
（4）比较（<elephant-taller than-person>）。
如图，目标检测任务包括定位图像中的对象并对谓语或对象对之间的关系进行分类。

确定对象对之间的关系仍然是一个相当具有挑战性的任务。基于三元组表示，将视觉关系检测视为一个分类问题是很自然的。一般来说，采用了两种主要的策略，自上而下和自下而上。自上而下的策略检测主谓宾，并将每个三元组视为一个类。这种策略的一个难点是过度和高度不平衡的类空间。自下而上的策略定位对象并将每个谓语视为一个类。虽然可以避免长尾问题和巨大的类空间，但仍然存在关系分布不平衡的问题。

本文使用主体和客体的masks来过滤特征图中不相关的背景信息。然后使用处理后的主谓宾的特征图传递信息来建模三者之间的关系。为了减轻谓语分布不平衡的影响，使用后验概率作为激活函数来强化一些谓语并抑制其它谓语。此外，设计了一个特定的对过滤分支来排除一些明显不太可能有关系的对象对。

Proposed Method

Overview of Our Framework

deep convolutional relationship （DCR）network由三个主要部分组成：
（1）对象检测器；
（2）关系推理；
（3）三元组预测器。
framework
第一步检测输入图像中的所有对象。然后将输入图像送入CNN生成特征图。检测到的主体和客体的位置被用来构建主谓宾的masks。masks可以被用来消除不相关的背景信息，保持每个对象对在特征图中的相对位置和尺寸。处理后的主谓宾的特征图被用于相互之间传递消息。在消息传递过程中三者的相对位置和尺寸不变，并使用一个小网络来生成给定主体和客体的谓语粗略概率。然后将这些概率作为一个激活函数来加强一些特征图并抑制其它特征图。

Object Detection Module

Faster-RCNN：输入图像，输出所有对象标签和边界框

Relationship Inference Module

在关系检测问题中，主谓宾不是相互独立的项。在传统图像分类任务中，L+1层的特征仅从上一层L中提取。此操作无法利用主谓宾之间的连接。本文使用卷积推断块构建一个特殊的关系消息传递结构。首先，将主谓宾的位置映射到特征图上，然后使用相应的masks进行element multiplication来获得这三者的特征图。
如图是消息传递公式。

h是当前特征图。

Activation Function

在真实图像中，给定主体和客体的关系分布不是均匀的。如“person”和“bike”之间的关系更可能是“ride”或“push”而不是“wear”。基于这一考虑，本文对特征图进行处理来增强一些关系并抑制其它关系，如图。
抑制+增强
公式如下：
在这里插入图片描述
P是谓语的粗略概率。使用一个词嵌入来描述这个概率而不是Bayes规则，使得它在过程中变得可以学习。

Pair filter

对于给出的N个对象，可以构造N（N-1）个主体客体对，这使得关系预测成为一个沉重的负担。此外，许多对象对都不太可能有连接。首先使用两个1×1的卷积滤波器生成一个H×W×2的特征图。然后在特征图上执行平均池化。输出是对象对是否有关系的概率，如图。
对过滤器
在训练过程中，如果一个对象对满足：
（1）对象对与真实边框的IoU重叠大于0.5；
（2）对象对有关系的概率大于0.7。
则为其分配一个正标签。
如果一个对象：
IoU小于0.5或对象对有关系的概率小于0.3，则为其分配一个负标签。

Experiments of Our DCR Model

Task Setting

在三个任务上测试了DCR：
（1）谓语检测：给定每个对象的标签和位置，输出只是谓语。检测模型在不受对象检测的限制时的性能；
（2）短语检测：给定一幅图像，输出是主谓宾三元组。如果三元组中的所有元素都被正确预测并且联合边界框和真实值之间的重叠超过0.5，则预测被认为是正确的；
（3）关系检测：与（2）几乎相同，但附加的要求是主体和客体与真实值之间的重叠同时都超过0.5。这项任务更具挑战性。

Evaluation Metrics

Recall@K是指在前K个预测中被正确回忆的事实实例的分数。本文使用Recall@50和Recall@100作为评价指标。

Comparison with state-of-the-art Methods

对比结果
将结果与近年来的所有相关工作进行了比较。
还比较了模型的不同配置以确定以下模块的贡献：
（1）激活函数（A）；
（2）对过滤器（P）。
结果证明都有助于关系检测。

Ablation Study

为了检验所提出的激活函数的有效性，比较了DCR和激活DCR。对过滤器只在短语检测和关系检测时存在，因为在谓语检测中所有有关系的对象对都已给定。

Architecture Choices

（1）关系推理块的数目；
（2）每个关系块的激活是否共享权重。
结构选择

Conclusions and Future Work

本文提出了一种用于检测视觉关系的深度卷积关系（Deep Convolution Relationship，DCR）网络。在关系推断过程中，主体和客体的相对位置和尺寸被保存在特征图中。提出了一种激活函数来使用主体和客体的词嵌入来强化某些特征。还提出了对过滤器来排除不太可能有关系的对象对。结果表明此模型可以更好地检测复杂的视觉关系。