解决HOI的长尾分布问题,通过引入一个物体制造器来生成有效的物体表示,然后将动词与虚构的物体进行组合以组成新的HOI样本,这样能够生成稀有和unseen类别的大规模HOI样本,从而减轻长尾问题。
CVPR2021
论文地址:https://arxiv.org/abs/2103.08214
代码地址:https://github.com/zhihou7/HOI-CL
1. 总述
从图像/视频中推断人与物体之间的关系的人物交互(HOI)检测是了解高级场景的一项基本任务。 但是,HOI检测通常会遇到交互类别的长尾分布问题,而人类可以通过组合现有组件(动词+名词)来构建一个新的概念从而识别稀有或未见过的HOI样本。
受此启发,本文设计了一种新颖的HOI成分学习框架,称为“结构化成分学习(Fabricated Compositional Learning-FCL)”,以解决HOI检测的长尾分布问题。 具体来说,首先从输入图像中提取动词表示形式,然后设计一个简单而有效的物体构造器来生成物体表示形式。 接下来,将生成的视觉物体特征与动词特征进一步组合以组成新的HOI样本。 提出的物体构造器能够为训练数据的mini-batch内的每个动词生成相对平衡的物体,并构成大量的相对平衡的HOI训练样本。
2. 总体结构
- 首先使用Faster-RCNN从图像中检测人和物体。
- 接下来,利用ROI Pooling和残差块提取人的特征,动词特征和宾语(物体)特征。 同时,将宾语的identity embedding,动词特征和噪声输入到制造器中以生成伪造的宾语特征。
- 然后,将这些特征馈送到单独的Spatial HOI分支,HOI分支以及Fabricated Compositional的HOI分支。
- 最后,通过共享的FC分类器优化来自HOI分支和Fabricated Compositional分支的HOI表示,而通过单独的FC分类器对来自空间分支的HOI表示进行分类。
在Fabricated Compositional HOI分支中,将动词特征与虚构宾语组合以构造虚构的HOI。
3. Fabricated Compositional Learning
组合学习的动机是将一个模型/概念分解为几个子模型/概念,其中每个子模型/概念都专注于一个特定的任务,然后对所有响应进行协调和汇总以做出最终预测。 最近的用于HOI检测的组合学习方法将每个HOI视为动词和宾语的组合,以在训练样本的小批量中从宾语和动词组成新的HOI。 然而,现有的构词学习方法未能解决对象上长尾分布的问题。为了解决长尾问题,本文为每个解耦的视觉动词生成跟随宾语。
对于给定的视觉动词特征以及每个第
j
(
0
≤
j
<
N
o
)
j(0≤j<N_o)
j(0≤j<No)个,首先选择第j个Object Identity Embedding。 然后将动词特征,Object Identity Embedding和高斯噪声连接起来,以输入到制造者以生成伪造的宾语特征。 为一个动词特征构造了
N
o
N_o
No个object。 最终删除不存在的HOI。
如何删除?
HOI标签空间被分解为动词和宾语空间,即共现矩阵
A
v
∈
R
N
v
×
C
\mathbf{A}_{v} \in R^{N_{v} \times C}
Av∈RNv×C和
A
o
∈
R
N
o
×
C
\mathbf{A}_{o} \in R^{N_{o} \times C}
Ao∈RNo×C,其中
N
v
,
N
o
,
C
N_v,N_o,C
Nv,No,C分别表示动词的数量,宾语的数量以及HOI的类别数量。给定一个one-hot HOI标签
y
∈
R
C
y \in R^C
y∈RC,得到动词标签为
l
v
=
y
A
v
⊤
\mathbf{l}_{v}=\mathbf{y} \mathbf{A}_{v}^{\top}
lv=yAv⊤,
I
v
∈
R
N
v
I_v \in R^{N_v}
Iv∈RNv是一个包含多个类别的multi-hot向量,例如〈{hold,read},book〉。相似的也可以得到
I
o
I_o
Io。
然后将 l ^ o ∈ R N o × N o \hat{\mathbf{l}}_{o} \in R^{N_{o} \times N_{o}} l^o∈RNo×No作为 N o N_o No个虚构的宾语的标签, l ^ v ∈ R N o × N v \hat{\mathbf{l}}_{v} \in R^{N_{o} \times N_{v}} l^v∈RNo×Nv表示相对应虚构的宾语 l ^ o \hat{\mathbf{l}}_{o} l^o的动词标签,则新的交互标签为: y ^ = ( l ^ o A o ) & ( l ^ v A v ) \hat{\mathbf{y}}=\left(\hat{\mathbf{l}}_{o} \mathbf{A}_{o}\right) \&\left(\hat{\mathbf{l}}_{v} \mathbf{A}_{v}\right) y^=(l^oAo)&(l^vAv)。最后,逻辑运算会自动滤除不可行的HOI,因为这些不可行的HOI的标签是标签空间中的全零向量。
4. 实验
4.1 SOTA对比
(1)HICO-DET数据集
(2)VCOCO数据集