论文笔记之Detecting Human-Object Interaction via Fabricated Compositional Learning

解决HOI的长尾分布问题,通过引入一个物体制造器来生成有效的物体表示,然后将动词与虚构的物体进行组合以组成新的HOI样本,这样能够生成稀有和unseen类别的大规模HOI样本,从而减轻长尾问题。
CVPR2021
论文地址:https://arxiv.org/abs/2103.08214
代码地址:https://github.com/zhihou7/HOI-CL

1. 总述

从图像/视频中推断人与物体之间的关系的人物交互(HOI)检测是了解高级场景的一项基本任务。 但是,HOI检测通常会遇到交互类别的长尾分布问题,而人类可以通过组合现有组件(动词+名词)来构建一个新的概念从而识别稀有或未见过的HOI样本。

受此启发,本文设计了一种新颖的HOI成分学习框架,称为“结构化成分学习(Fabricated Compositional Learning-FCL)”,以解决HOI检测的长尾分布问题。 具体来说,首先从输入图像中提取动词表示形式,然后设计一个简单而有效的物体构造器来生成物体表示形式。 接下来,将生成的视觉物体特征与动词特征进一步组合以组成新的HOI样本。 提出的物体构造器能够为训练数据的mini-batch内的每个动词生成相对平衡的物体,并构成大量的相对平衡的HOI训练样本。

2. 总体结构

在这里插入图片描述

  • 首先使用Faster-RCNN从图像中检测人和物体。
  • 接下来,利用ROI Pooling和残差块提取人的特征,动词特征和宾语(物体)特征。 同时,将宾语的identity embedding,动词特征和噪声输入到制造器中以生成伪造的宾语特征。
  • 然后,将这些特征馈送到单独的Spatial HOI分支,HOI分支以及Fabricated Compositional的HOI分支。
  • 最后,通过共享的FC分类器优化来自HOI分支和Fabricated Compositional分支的HOI表示,而通过单独的FC分类器对来自空间分支的HOI表示进行分类。

在Fabricated Compositional HOI分支中,将动词特征与虚构宾语组合以构造虚构的HOI。

3. Fabricated Compositional Learning

组合学习的动机是将一个模型/概念分解为几个子模型/概念,其中每个子模型/概念都专注于一个特定的任务,然后对所有响应进行协调和汇总以做出最终预测。 最近的用于HOI检测的组合学习方法将每个HOI视为动词和宾语的组合,以在训练样本的小批量中从宾语和动词组成新的HOI。 然而,现有的构词学习方法未能解决对象上长尾分布的问题。为了解决长尾问题,本文为每个解耦的视觉动词生成跟随宾语。
在这里插入图片描述对于给定的视觉动词特征以及每个第 j ( 0 ≤ j < N o ) j(0≤j<N_o) j0j<No个,首先选择第j个Object Identity Embedding。 然后将动词特征,Object Identity Embedding和高斯噪声连接起来,以输入到制造者以生成伪造的宾语特征。 为一个动词特征构造了 N o N_o No个object。 最终删除不存在的HOI。

如何删除?
HOI标签空间被分解为动词和宾语空间,即共现矩阵 A v ∈ R N v × C \mathbf{A}_{v} \in R^{N_{v} \times C} AvRNv×C A o ∈ R N o × C \mathbf{A}_{o} \in R^{N_{o} \times C} AoRNo×C,其中 N v , N o , C N_v,N_o,C Nv,No,C分别表示动词的数量,宾语的数量以及HOI的类别数量。给定一个one-hot HOI标签 y ∈ R C y \in R^C yRC,得到动词标签为 l v = y A v ⊤ \mathbf{l}_{v}=\mathbf{y} \mathbf{A}_{v}^{\top} lv=yAv I v ∈ R N v I_v \in R^{N_v} IvRNv是一个包含多个类别的multi-hot向量,例如〈{hold,read},book〉。相似的也可以得到 I o I_o Io

然后将 l ^ o ∈ R N o × N o \hat{\mathbf{l}}_{o} \in R^{N_{o} \times N_{o}} l^oRNo×No作为 N o N_o No个虚构的宾语的标签, l ^ v ∈ R N o × N v \hat{\mathbf{l}}_{v} \in R^{N_{o} \times N_{v}} l^vRNo×Nv表示相对应虚构的宾语 l ^ o \hat{\mathbf{l}}_{o} l^o的动词标签,则新的交互标签为: y ^ = ( l ^ o A o ) & ( l ^ v A v ) \hat{\mathbf{y}}=\left(\hat{\mathbf{l}}_{o} \mathbf{A}_{o}\right) \&\left(\hat{\mathbf{l}}_{v} \mathbf{A}_{v}\right) y^=(l^oAo)&(l^vAv)。最后,逻辑运算会自动滤除不可行的HOI,因为这些不可行的HOI的标签是标签空间中的全零向量。

4. 实验

4.1 SOTA对比

(1)HICO-DET数据集
在这里插入图片描述

(2)VCOCO数据集
在这里插入图片描述

4.2 消融实验

在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
通过挖掘控制台日志来检测大规模系统问题,是一种常用的方法。日志是系统运行过程中的关键信息记录,包含了各种关键指标、事件和异常信息。通过对控制台日志进行数据挖掘和分析,可以帮助我们发现并解决系统中的大规模问题。 首先,通过挖掘控制台日志,我们可以识别系统中的关键指标。例如,我们可以追踪系统的性能数据,如CPU利用率、内存占用率和网络延迟等。如果这些指标超过了设定的阈值,就可能表示系统存在问题。此外,我们还可以分析日志中的请求和响应时间,以便发现潜在的性能问题。 其次,挖掘控制台日志可以帮助我们发现系统中的异常事件。日志中记录了系统运行过程中的各种异常现象,如错误、警告和异常崩溃等。通过分析日志中的错误码、异常信息和堆栈轨迹,我们可以快速定位和解决这些异常问题,以保证系统的正常运行。 此外,通过对控制台日志进行挖掘,我们可以得到系统的运行趋势和模式。通过分析日志中的历史数据,我们可以发现系统发生问题的规律和周期性。这有助于我们预测和预防潜在的大规模系统问题,提前采取有效的措施。 总而言之,通过挖掘控制台日志,我们可以及时发现和解决大规模系统问题,提高系统的稳定性和性能。这种方法减少了对人工排查的依赖,自动化地监测和诊断系统,提高了故障排除效率,加快了问题的解决速度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值