LOGICHOI:融合神经计算与符号推理,革新人-物交互检测

论文标题:

Neural-Logic Human-Object Interaction Detection

论文作者:

Liulei Li, Jianan Wei, Wenguan Wang, Yi Yang

导读: 传统HOI检测器受限于预先定义的human-object对,缺乏探索新组合的能力。LOGIC HOI,一款基于神经逻辑推理和Transformer的检测器,通过修改self-attention机制,推理⟨human、action、object⟩新交互。结合affordance和proxemics属性,实现高效性能和zero-shot泛化,为HOI检测带来革命性突破。©️【深蓝AI】编译

1. 引言

人-物交互(Human-Object Interaction, HOI)检测的核心目标是解析场景中human与object间复杂的关系。相较于传统的视觉感知任务,如object或单个action的识别,HOI检测更注重实体推理,因此在图像合成、视觉问题解答和标题生成等场景理解任务中具有广泛应用。

在这里插入图片描述
图1|经典HOI案例,黄色bounding box定位human,红色bounding box定位object,热图区域提示interaction方式(来源:MLearning.ai Art©️【深蓝AI】编译

目前领先的HOI检测方法多采用基于Transformer的架构,通过交互解码器提供最终预测。然而,如下图(左)所示,这种解码器依赖于预先组合的human-object对嵌入作为输入,限制了其探索新实体组合的能力。这种局限性导致零样本学习(zero-shot)泛化能力较弱。此外,现有方法通常使用简单的MLP层来提出human-objec配对,缺乏模拟主体、客体间复杂关系及交互过程的能力。因此,HOI检测需要改进以更好地挖掘实体间的交互,而非仅仅依赖于预先给定的配对。

在这里插入图片描述
图2|左图:self-attention汇总了预先组成的 interaction query信息。中图:提出的triplet reasoning注意遍历人、动作和物体query,以提出合理的interaction。右图:逻辑诱导的affordance和proxemics知识学习。©️【深蓝AI】编译

针对这些挑战,ReLER和CCAI的研究人员提出了一种新颖的HOI检测器——LOGICHOI。通过巧妙地融合Transformer技术和逻辑诱导学习方法,LOGICHOI不仅具备了鲁棒的实体分布式表征能力,还充分发挥了符号推理的优势。经过在V-COCO和HICO-DET数据集上的全面测试,LOGICHOI展现出了显著的性能提升和zero-shot泛化能力。这一创新性的研究成果已在NIPS 2023会议上亮相,引起了广泛关注。

尽管Seq2Seq模型(如Transformer)在视觉推理任务上的效率受到质疑,但通过优化其体系结构和训练策略,Transformer模型已在高度依赖推理的任务中展现出强大的能力。这表明:只要适当调整模型结构并提供有效的学习指导,Transformer就能成为出色的符号推理工具。

为了增强Transformer在推理过程中的能力,作者改进了交互解码器中的attention机制,使其能够以三元组(triplet)的形式运行,即整合<human、action、object>来更新状态,实现triplet-reasoning attention。这种调整使模型能更有效地理解和利用不同实体之间的关系。

为了指导Transformer中的三元组推理学习过程,作者引入了两个关键属性:affordances和proxemics。前者指object为特定交互提供支持的能力,后者关注human与object之间的空间关系。这两种属性用一阶逻辑公式表示,并作为优化目标,引导模型探索和学习object与action之间的相互关系。逻辑引导的知识学习补充了triplet推理注意力,使其专注于满足规则的三元组,摒弃不可行的组合,从而实现更高效、更快速的学习和收敛,产生更鲁棒、逻辑更合理的预测结果。

2. 方法

在这里插入图片描述
图3|LOGICHOI概述:首先,检索human、action和object的query。接着,interaction解码器将这些信息作为输入,对实体进行推理并组合出潜在的交互 triplet。整个过程受到affordances(object的潜在行动)和proxemics(人与物体间的空间关系)特性的引导。©️【深蓝AI】编译

2.1 Triplet-Reasoning Attention实现HOI检测

Triplet-Reasoning Attention的目标是利用Transformer架构,促进对三个关键要素的attention,以制定交互方案。可行的⟨human、acton、object⟩元组通过Transformer中的层推理进行组合和过滤。为实现这一目标,首先采用一个视觉编码器,该编码器由 CNN 主干网和 Transformer 编码器 E 组成,用于提取视觉特征 V。然后,将可学习的human query Q h Q^h Qh、action query Q a Q^a Qa和object query Q o Q^o Qo输入三个并行的解码器 Dh、Da、Do,通过它们分别得到human、action和object的嵌入:

Q h = D h ( V , Q h ) , Q a = D a ( V , Q a ) , Q o = D o ( V , Q o ) . ( 1 ) Q^h=\mathcal{D}^h(V,Q^h),\quad Q^a=\mathcal{D}^a(V,Q^a),\quad Q^o=\mathcal{D}^o(V,Q^o).\quad(1) Qh=Dh(V,Qh),Qa=Da(V,Qa),Qo=Do(V,Qo).(1)

随后,采用由多个Transformer层组成的交互解码器 D p D^p Dp,用提出的Triplet-Reasoning Attention取代self-attention,从而赋予transformer推理能力。具体地说,输入Triplet-Reasoning Attention的query、key、value F q ,    F k ,    F v F_q,\; F_k,\; F_v Fq,Fk,Fv的计算公式为:

F q = ( X + Q h + Q a ) ⋅ W q ∈ R N h × N a × D , F k = ( X + Q a + Q o ) ⋅ W k ∈ R N a × N o × D , F v = W h v ⋅ ( X + Q h + Q n ) ⊙ ( X + Q n + Q o ) ⋅ W o v ∈ R N h × N a × N o × D , ( 2 ) \begin{aligned}F^q&=(X+Q^h+Q^a)\cdot W^q\in\mathbb{R}^{N_h\times N_a\times D},\\F^k&=(X+Q^a+Q^o)\cdot W^k\in\mathbb{R}^{N_a\times N_o\times D},\\F^v&=W_h^v\cdot(X+Q^h+Q^n)\odot(X+Q^n+Q^o)\cdot W_o^v\in\mathbb{R}^{N_h\times N_a\times N_o\times D},\end{aligned}\quad(2) FqFkFv=(X+Qh+Qa)WqRNh×Na×D,=(X+Qa+Qo)WkRNa×No×D,=Whv(X+Qh+Qn)(X+Qn+Qo)WovRNh×Na×No×D,(2)左右滑动查看完整公式

对于 F q F_q Fq Q h + Q a Q^h+Q^a Qh+Qa将每个human和action联系起来,总共产生 N h × N a N_h\times N_a Nh×Na个human-action对。 Q a + Q o Q^a+Q^o Qa+Qo以同样的方式产生 N a × N o N_a\times N_o Na×No个可行的action-object对。对于 F v F_v Fv,它编码了所有 N h × N a × N o N_h\times N_a\times N_o Nh×Na×No个潜在交互。由此,Triplet-Reasoning Attention的输出为:

X i j ′ = W v ′ ⋅ ∑ n = 1 N a s o f t m a x ( F i n q ⋅ F n j k / D ) ⋅ F i n j v , ( 3 ) \bf{X}_{ij}^{\prime}=\bf{W}^{v^{\prime}}\cdot\sum_{n=1}^{N_a}\mathrm{softmax}(\bf{F}_{in}^q\cdot\bf{F}_{nj}^k/\sqrt{D})\cdot\bf{F}_{inj}^v,\quad\quad(3) Xij=Wvn=1Nasoftmax(FinqFnjk/D )Finjv,(3)

Triplet-Reasoning Attention会拉伸共享相同action query的每一对human-action和action-object之间的边。通过聚合human-action和action-object之间关系的信息,它能以组合学习的方式捕捉⟨human、action、object⟩的可行性。 D P D^P DP最终输出对human-object的交互预测:

Y = D p ( V , Q h , Q a , Q o ) ∈ R N h × N o × D , ( 4 ) Y=\mathcal{D}^{p}(V,Q^{h},Q^{a},Q^{o})\in\mathbb{R}^{N_{h}\times N_{o}\times D}, \quad \quad (4) Y=Dp(V,Qh,Qa,Qo)RNh×No×D,(4)

2.2 逻辑引导推理学习

为了引导LOGICHOI的学习和推理过程,作者巧妙地利用了affordances和proxemics属性。通过设定约束条件,从预先给定的object或action逻辑结果中筛选出符合规则的<human, action, object>子集。

· affordances 和 proxemics特性组合

给定action v 和位置关系 p,则可以得出一组不可行的⟨human、action、object⟩交互 { h 1 , ⋯   , h M } {\{}h_{1},\cdots,h_{M}\} {h1,,hM}

∀ x ( v ( x ) ∧ p ( x ) → ¬ h 1 ( x ) ∧ ¬ h 2 ( x ) ∧ ⋯ ∧ ¬ h M ( x ) ) , ( 5 ) \forall x(v(x)\wedge p(x)\rightarrow\neg h_{1}(x)\wedge\neg h_{2}(x)\wedge\cdots\wedge\neg h_{M}(x)),\quad \quad(5) x(v(x)p(x)¬h1(x)¬h2(x)¬hM(x)),(5)

x代表可能发生交互的对。在一阶逻辑中,变量x的语义通常与谓词(如launch(x)、above(x))相关。以公式5为例,若v代表launch,p代表above,则除了由非launch动作组成的交互以外,human-launch-boat的交互应包含在 { h 1 , ⋯   , h M } {\{}h_{1},\cdots,h_{M}\} {h1,,hM}中。同理,结合object类别o和位置关系p,可以得出:

∀ x ( o ( x ) ∧ p ( x ) → ¬ h 1 ( x ) ∧ ¬ h 2 ( x ) ∧ ⋯ ∧ ¬ h N ( x ) ) . ( 6 ) \forall x(o(x)\land p(x)\rightarrow\neg h_1(x)\land\neg h_2(x)\land\cdots\land\neg h_N(x)).\quad\quad(6) x(o(x)p(x)¬h1(x)¬h2(x)¬hN(x)).(6)

公式5和公式6清晰地揭示了affordances和proxemics及其组合关系。接下来的研究重点是将这些逻辑符号转化为可微分的运算,以便将其融入模型训练中。

· 逻辑符号的可微转换

使用乘积逻辑将定义在离散布尔变量上的逻辑连接词(如 →、¬、∨、∧)转化为连续变量上的函数:

ψ → ϕ = 1 − ψ + ψ ⋅ ϕ , ¬ ψ = 1 − ψ , ψ ∨ ϕ = ψ + ϕ − ψ ⋅ ϕ , ψ ∧ ϕ = ψ ⋅ ϕ . ( 7 ) \begin{array}{c}\psi\to\phi=1-\psi+\psi\cdot\phi,\quad\neg\psi=1-\psi,\\\psi\vee\phi=\psi+\phi-\psi\cdot\phi,\quad\psi\wedge\phi=\psi\cdot\phi.\end{array}\quad\quad(7) ψϕ=1ψ+ψϕ,¬ψ=1ψ,ψϕ=ψ+ϕψϕ,ψϕ=ψϕ.(7)

同样,量词也是以如下广义均值方式实现的:

∃ x ( ψ ( x ) ) = ( 1 K ∑ k = 1 K ψ ( x k ) q ) 1 q , ∀ x ( ψ ( x ) ) = 1 − ( 1 K ∑ k = 1 K ( 1 − ψ ( x k ) ) q ) 1 q , ( 8 ) \begin{aligned} &\exists x(\psi(x)) =(\frac{1}{K}\sum_{k=1}^{K}\psi(x_{k})^{q})^{\frac{1}{q}}, \\ &\forall x(\psi(x)) =1-(\frac{1}{K}\sum_{k=1}^{K}(1-\psi(x_{k}))^{q})^{\frac{1}{q}}, \end{aligned} \quad\quad(8) x(ψ(x))=(K1k=1Kψ(xk)q)q1,x(ψ(x))=1(K1k=1K(1ψ(xk))q)q1,(8)

将一阶逻辑公式中定义的属性转化为次符号数字表示,从而监督transformer推理器预测的interaction { h 1 , ⋯   , h M } {\{}h_{1},\cdots,h_{M}\} {h1,,hM}。例如,式5可以由式7和式8转化为:

G v , p = 1 − 1 M ∑ m = 1 M ( 1 K ∑ k = 1 K ( s k [ v ] ⋅ s k [ h m ] ) ) , ( 9 ) \mathcal{G}_{v,p}=1-\frac{1}{M}\sum_{m=1}^{M}\bigl(\frac{1}{K}\sum_{k=1}^{K}\bigl(s_{k}\bigl[v\bigr]\cdot s_{k}\bigl[h_{m}\bigr]\bigr)\bigr),\quad\quad(9) Gv,p=1M1m=1M(K1k=1K(sk[v]sk[hm])),(9)

s k [ v ] s_{k}\bigl[v\bigr] sk[v] s k [ h m ] s_{k}\bigl[h_m\bigr] sk[hm]分别代表动作 v v v和交互 h m h_m hm对于输入样本 x k x_k xk的得分。在query中,human的空间位置与object的空间位置被整合,意味着空间关系已预先设定,并可直接从box预测中轻松获取。因此,公式11中的 p ( x ) p(x) p(x)被省略。action-position 损失被定义为 L v , p = 1 − G v , p \mathcal{L}_{v,p}=1-\mathcal{G}_{v,p} Lv,p=1Gv,p。类似地,公式 6可以简化为:

G o , p = 1 − 1 N ∑ n = 1 N ( 1 K ∑ k = 1 K ( s k [ v ] ⋅ s k [ h n ] ) ) , ( 10 ) \mathcal{G}_{o,p}=1-\frac{1}{N}\sum_{n=1}^{N}(\frac{1}{K}\sum_{k=1}^{K}(s_{k}[v]\cdot s_{k}[h_{n}])),\quad\quad(10) Go,p=1N1n=1N(K1k=1K(sk[v]sk[hn])),(10)

s k [ o ] s_{k}\bigl[o\bigr] sk[o]代表输入样本 x k x_k xk的object得分。object-position损失定义为 L o , p = 1 − G o , p \mathcal{L}_{o,p}=1-\mathcal{G}_{o,p} Lo,p=1Go,p

G v , p \mathcal{G}_{v,p} Gv,p负责评估预测是否符合公式5 的规则。例如,若 action是"ride"的概率很高(即 s k [ v ] s_{k}\bigl[v\bigr] sk[v]值高),且位置关系是 “above”,但不可行的交互(如 “human-feed-fish”)的概率也很高,那么 G v , p \mathcal{G}_{v,p} Gv,p的值会较低,以此对预测进行惩罚。 G o , p \mathcal{G}_{o,p} Go,p的计算方式类似。

通过公式9和10,作者的目标是让 Transformer 推理器在给定的 human 和 object 嵌入、位置,以及图像中潜在的actions,推测出哪一对 human 和 object 进行了何种交互。同时,这些预测需要遵循公式5和6中定义的规则。

3. 实验结果

实验以平均精度(mAP)为评估标准。V-COCO数据被分为两个情景,情景1涵盖了所有29个action类别,而情景2则排除了4个不涉及交互的action,分别报告了这两种情景下的mAP分数。对于HICO-DET数据集,评估涉及三个类别集:完整的600个HOI类别、138个训练实例少于10个的罕见HOI类别,以及剩余的462个非罕见HOI类别。

在这里插入图片描述
图4|V-COCO 和 HICO-DET的五种空间关系示例©️【深蓝AI】编译

3.1 Zero-Shot HOI检测

表1展示了LOGICHOI与其他zero-shot HOI检测模型在HICO-DET测试集中的对比结果,LOGICHOI在以下三种设定中均显著超越竞争对手:1)对于未见过的<human, action, object>组合、2)未见object、3)未见verb。

这些显著的zero-shot泛化提升充分证明了所提出Transformer推理器的有效性。该推理器采用组合学习方式,并借助affordances和proxemics来应对全新情境。

在这里插入图片描述
表1|在 HICO-DET 测试中,zero-shot泛化的比较©️【深蓝AI】编译

3.2 常规HOI检测

在这里插入图片描述
图5|选自 V-COCO和 HICO-DET的LOGICHOI检测成功和失败案例©️【深蓝AI】编译

表2对比了LOGICHOI与其他最佳模型在HOI检测中的性能。在HICO-DET测试中,LOGICHOI在完整、罕见和非罕见类别上的mAP分别提升了1.72%、2.78%和1.12%。在已知对象方面,LOGICHOI的mAP分数分别达到了38.21%、35.29%和39.03%。同时,在V-COCO测试中,LOGICHOI的平均mAP得分为65.0%,验证了其有效性。

在这里插入图片描述
表2|HICO-DET 试验和 V-COCO 试验的定量结果©️【深蓝AI】编译

4. 结论

LOGICHOI是一个基于Transformer的神经逻辑推理器,专为HOI检测设计。其创新之处在于:它能够在解码过程中探索新的实体组合,从而提高了有效性和zero-shot泛化能力。这得益于两方面的改进:

1)是对原始Transformer的self-attention机制进行了修改,使其能够处理⟨human、action、object⟩三元组推理;

2)是引入了affordances和proxemics属性作为逻辑约束,指导LOGICHOI的学习和推理过程。

在两个黄金标准的HOI数据集上的实验结果显示,LOGICHOI的表现超越了现有方法。这项工作为HOI检测领域开辟了新的道路,展示了Transformer在符号推理方面的潜力,为未来的研究奠定了基础。

编译|Sienna

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

  • 25
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值