论文笔记之Detecting Human-Object Interaction via Fabricated Compositional Learning

最新推荐文章于 2023-03-30 22:14:58 发布

To_1_oT

最新推荐文章于 2023-03-30 22:14:58 发布

阅读量1k

点赞数

分类专栏：论文笔记文章标签：人工智能深度学习计算机视觉 HOI 人物交互

本文链接：https://blog.csdn.net/haha0825/article/details/116192743

版权

论文笔记专栏收录该内容

48 篇文章 13 订阅

订阅专栏

解决HOI的长尾分布问题，通过引入一个物体制造器来生成有效的物体表示，然后将动词与虚构的物体进行组合以组成新的HOI样本，这样能够生成稀有和unseen类别的大规模HOI样本，从而减轻长尾问题。
CVPR2021
论文地址：https://arxiv.org/abs/2103.08214
代码地址：https://github.com/zhihou7/HOI-CL

1. 总述

从图像/视频中推断人与物体之间的关系的人物交互（HOI）检测是了解高级场景的一项基本任务。但是，HOI检测通常会遇到交互类别的长尾分布问题，而人类可以通过组合现有组件（动词+名词）来构建一个新的概念从而识别稀有或未见过的HOI样本。

受此启发，本文设计了一种新颖的HOI成分学习框架，称为“结构化成分学习（Fabricated Compositional Learning-FCL）”，以解决HOI检测的长尾分布问题。具体来说，首先从输入图像中提取动词表示形式，然后设计一个简单而有效的物体构造器来生成物体表示形式。接下来，将生成的视觉物体特征与动词特征进一步组合以组成新的HOI样本。提出的物体构造器能够为训练数据的mini-batch内的每个动词生成相对平衡的物体，并构成大量的相对平衡的HOI训练样本。

2. 总体结构

在这里插入图片描述

首先使用Faster-RCNN从图像中检测人和物体。
接下来，利用ROI Pooling和残差块提取人的特征，动词特征和宾语（物体）特征。同时，将宾语的identity embedding，动词特征和噪声输入到制造器中以生成伪造的宾语特征。
然后，将这些特征馈送到单独的Spatial HOI分支，HOI分支以及Fabricated Compositional的HOI分支。
最后，通过共享的FC分类器优化来自HOI分支和Fabricated Compositional分支的HOI表示，而通过单独的FC分类器对来自空间分支的HOI表示进行分类。

在Fabricated Compositional HOI分支中，将动词特征与虚构宾语组合以构造虚构的HOI。

3. Fabricated Compositional Learning

组合学习的动机是将一个模型/概念分解为几个子模型/概念，其中每个子模型/概念都专注于一个特定的任务，然后对所有响应进行协调和汇总以做出最终预测。最近的用于HOI检测的组合学习方法将每个HOI视为动词和宾语的组合，以在训练样本的小批量中从宾语和动词组成新的HOI。然而，现有的构词学习方法未能解决对象上长尾分布的问题。为了解决长尾问题，本文为每个解耦的视觉动词生成跟随宾语。
在这里插入图片描述对于给定的视觉动词特征以及每个第 $j（0≤j<N_o）$ 个，首先选择第j个Object Identity Embedding。然后将动词特征，Object Identity Embedding和高斯噪声连接起来，以输入到制造者以生成伪造的宾语特征。为一个动词特征构造了 $N_o$ 个object。最终删除不存在的HOI。

如何删除？
HOI标签空间被分解为动词和宾语空间，即共现矩阵 $\mathbf{A}_{v} \in R^{N_{v} \times C}$ 和 $\mathbf{A}_{o} \in R^{N_{o} \times C}$ ，其中 $N_v,N_o,C$ 分别表示动词的数量，宾语的数量以及HOI的类别数量。给定一个one-hot HOI标签 $\in R^C$ ,得到动词标签为 $\mathbf{l}_{v}=\mathbf{y} \mathbf{A}_{v}^{\top}$ ， $I_v \in R^{N_v}$ 是一个包含多个类别的multi-hot向量，例如〈{hold,read},book〉。相似的也可以得到 $I_o$ 。

然后将 $\hat{\mathbf{l}}_{o} \in R^{N_{o} \times N_{o}}$ 作为 $N_o$ 个虚构的宾语的标签， $\hat{\mathbf{l}}_{v} \in R^{N_{o} \times N_{v}}$ 表示相对应虚构的宾语 $\hat{\mathbf{l}}_{o}$ 的动词标签，则新的交互标签为： $\hat{\mathbf{y}}=\left(\hat{\mathbf{l}}_{o} \mathbf{A}_{o}\right) \&\left(\hat{\mathbf{l}}_{v} \mathbf{A}_{v}\right)$ 。最后，逻辑运算会自动滤除不可行的HOI，因为这些不可行的HOI的标签是标签空间中的全零向量。

4. 实验

4.1 SOTA对比

（1）HICO-DET数据集
在这里插入图片描述

（2）VCOCO数据集
在这里插入图片描述

4.2 消融实验

在这里插入图片描述

To_1_oT

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
论文笔记之Detecting Human-Object Interaction via Fabricated Compositional Learning

解决HOI的长尾分布问题，通过引入一个物体制造器来生成有效的物体表示，然后将动词与虚构的物体进行组合以组成新的HOI样本，这样能够生成稀有和unseen类别的大规模HOI样本，从而减轻长尾问题。CVPR2021论文地址：https://arxiv.org/abs/2103.08214代码地址：https://github.com/zhihou7/HOI-CL1. 总述从图像/视频中推断人与物体之间的关系的人物交互（HOI）检测是了解高级场景的一项基本任务。但是，HOI检测通常会遇到交互类别的.
复制链接

扫一扫