LOGICHOI：融合神经计算与符号推理，革新人-物交互检测-CSDN博客

本文链接：https://blog.csdn.net/soaring_casia/article/details/136648051

论文标题：

Neural-Logic Human-Object Interaction Detection

论文作者：

Liulei Li, Jianan Wei, Wenguan Wang, Yi Yang

导读： 传统HOI检测器受限于预先定义的human-object对，缺乏探索新组合的能力。LOGIC HOI，一款基于神经逻辑推理和Transformer的检测器，通过修改self-attention机制，推理⟨human、action、object⟩新交互。结合affordance和proxemics属性，实现高效性能和zero-shot泛化，为HOI检测带来革命性突破。©️【深蓝AI】编译

1. 引言

人-物交互（Human-Object Interaction, HOI）检测的核心目标是解析场景中human与object间复杂的关系。相较于传统的视觉感知任务，如object或单个action的识别，HOI检测更注重实体推理，因此在图像合成、视觉问题解答和标题生成等场景理解任务中具有广泛应用。

在这里插入图片描述
图1｜经典HOI案例，黄色bounding box定位human，红色bounding box定位object，热图区域提示interaction方式（来源：MLearning.ai Art©️【深蓝AI】编译

目前领先的HOI检测方法多采用基于Transformer的架构，通过交互解码器提供最终预测。然而，如下图（左）所示，这种解码器依赖于预先组合的human-object对嵌入作为输入，限制了其探索新实体组合的能力。这种局限性导致零样本学习（zero-shot）泛化能力较弱。此外，现有方法通常使用简单的MLP层来提出human-objec配对，缺乏模拟主体、客体间复杂关系及交互过程的能力。因此，HOI检测需要改进以更好地挖掘实体间的交互，而非仅仅依赖于预先给定的配对。

在这里插入图片描述
图2｜左图：self-attention汇总了预先组成的 interaction query信息。中图：提出的triplet reasoning注意遍历人、动作和物体query，以提出合理的interaction。右图：逻辑诱导的affordance和proxemics知识学习。©️【深蓝AI】编译

针对这些挑战，ReLER和CCAI的研究人员提出了一种新颖的HOI检测器——LOGICHOI。通过巧妙地融合Transformer技术和逻辑诱导学习方法，LOGICHOI不仅具备了鲁棒的实体分布式表征能力，还充分发挥了符号推理的优势。经过在V-COCO和HICO-DET数据集上的全面测试，LOGICHOI展现出了显著的性能提升和zero-shot泛化能力。这一创新性的研究成果已在NIPS 2023会议上亮相，引起了广泛关注。

尽管Seq2Seq模型（如Transformer）在视觉推理任务上的效率受到质疑，但通过优化其体系结构和训练策略，Transformer模型已在高度依赖推理的任务中展现出强大的能力。这表明：只要适当调整模型结构并提供有效的学习指导，Transformer就能成为出色的符号推理工具。

为了增强Transformer在推理过程中的能力，作者改进了交互解码器中的attention机制，使其能够以三元组（triplet）的形式运行，即整合<human、action、object>来更新状态，实现triplet-reasoning attention。这种调整使模型能更有效地理解和利用不同实体之间的关系。

为了指导Transformer中的三元组推理学习过程，作者引入了两个关键属性：affordances和proxemics。前者指object为特定交互提供支持的能力，后者关注human与object之间的空间关系。这两种属性用一阶逻辑公式表示，并作为优化目标，引导模型探索和学习object与action之间的相互关系。逻辑引导的知识学习补充了triplet推理注意力，使其专注于满足规则的三元组，摒弃不可行的组合，从而实现更高效、更快速的学习和收敛，产生更鲁棒、逻辑更合理的预测结果。

2. 方法

在这里插入图片描述
图3｜LOGICHOI概述：首先，检索human、action和object的query。接着，interaction解码器将这些信息作为输入，对实体进行推理并组合出潜在的交互 triplet。整个过程受到affordances（object的潜在行动）和proxemics（人与物体间的空间关系）特性的引导。©️【深蓝AI】编译

2.1 Triplet-Reasoning Attention实现HOI检测

Triplet-Reasoning Attention的目标是利用Transformer架构，促进对三个关键要素的attention，以制定交互方案。可行的⟨human、acton、object⟩元组通过Transformer中的层推理进行组合和过滤。为实现这一目标，首先采用一个视觉编码器，该编码器由 CNN 主干网和 Transformer 编码器 E 组成，用于提取视觉特征 V。然后，将可学习的human query $Q^h$ 、action query $Q^a$ 和object query $Q^o$ 输入三个并行的解码器 Dh、Da、Do，通过它们分别得到human、action和object的嵌入：

$Q^h=\mathcal{D}^h(V,Q^h),\quad Q^a=\mathcal{D}^a(V,Q^a),\quad Q^o=\mathcal{D}^o(V,Q^o).\quad(1)$

随后，采用由多个Transformer层组成的交互解码器 $D^p$ ，用提出的Triplet-Reasoning Attention取代self-attention，从而赋予transformer推理能力。具体地说，输入Triplet-Reasoning Attention的query、key、value $F_q,\; F_k,\; F_v$ 的计算公式为：

$\begin{aligned}F^q&=(X+Q^h+Q^a)\cdot W^q\in\mathbb{R}^{N_h\times N_a\times D},\\F^k&=(X+Q^a+Q^o)\cdot W^k\in\mathbb{R}^{N_a\times N_o\times D},\\F^v&=W_h^v\cdot(X+Q^h+Q^n)\odot(X+Q^n+Q^o)\cdot W_o^v\in\mathbb{R}^{N_h\times N_a\times N_o\times D},\end{aligned}\quad(2)$ 左右滑动查看完整公式

对于 $F_q$ ， $Q^h+Q^a$ 将每个human和action联系起来，总共产生 $N_h\times N_a$ 个human-action对。 $Q^a+Q^o$ 以同样的方式产生 $N_a\times N_o$ 个可行的action-object对。对于 $F_v$ ，它编码了所有 $N_h\times N_a\times N_o$ 个潜在交互。由此，Triplet-Reasoning Attention的输出为：

$\bf{X}_{ij}^{\prime}=\bf{W}^{v^{\prime}}\cdot\sum_{n=1}^{N_a}\mathrm{softmax}(\bf{F}_{in}^q\cdot\bf{F}_{nj}^k/\sqrt{D})\cdot\bf{F}_{inj}^v,\quad\quad(3)$

Triplet-Reasoning Attention会拉伸共享相同action query的每一对human-action和action-object之间的边。通过聚合human-action和action-object之间关系的信息，它能以组合学习的方式捕捉⟨human、action、object⟩的可行性。 $D^P$ 最终输出对human-object的交互预测：

$Y=\mathcal{D}^{p}(V,Q^{h},Q^{a},Q^{o})\in\mathbb{R}^{N_{h}\times N_{o}\times D}, \quad \quad (4)$

2.2 逻辑引导推理学习

为了引导LOGICHOI的学习和推理过程，作者巧妙地利用了affordances和proxemics属性。通过设定约束条件，从预先给定的object或action逻辑结果中筛选出符合规则的<human, action, object>子集。

· affordances 和 proxemics特性组合

给定action v 和位置关系 p，则可以得出一组不可行的⟨human、action、object⟩交互 ${\{}h_{1},\cdots,h_{M}\}$ ：

$\forall x(v(x)\wedge p(x)\rightarrow\neg h_{1}(x)\wedge\neg h_{2}(x)\wedge\cdots\wedge\neg h_{M}(x)),\quad \quad(5)$

x代表可能发生交互的对。在一阶逻辑中，变量x的语义通常与谓词（如launch(x)、above(x)）相关。以公式5为例，若v代表launch，p代表above，则除了由非launch动作组成的交互以外，human-launch-boat的交互应包含在 ${\{}h_{1},\cdots,h_{M}\}$ 中。同理，结合object类别o和位置关系p，可以得出：

$\forall x(o(x)\land p(x)\rightarrow\neg h_1(x)\land\neg h_2(x)\land\cdots\land\neg h_N(x)).\quad\quad(6)$

公式5和公式6清晰地揭示了affordances和proxemics及其组合关系。接下来的研究重点是将这些逻辑符号转化为可微分的运算，以便将其融入模型训练中。

· 逻辑符号的可微转换

使用乘积逻辑将定义在离散布尔变量上的逻辑连接词（如 →、¬、∨、∧）转化为连续变量上的函数：

$\begin{array}{c}\psi\to\phi=1-\psi+\psi\cdot\phi,\quad\neg\psi=1-\psi,\\\psi\vee\phi=\psi+\phi-\psi\cdot\phi,\quad\psi\wedge\phi=\psi\cdot\phi.\end{array}\quad\quad(7)$

同样，量词也是以如下广义均值方式实现的：

$\begin{aligned} &\exists x(\psi(x)) =(\frac{1}{K}\sum_{k=1}^{K}\psi(x_{k})^{q})^{\frac{1}{q}}, \\ &\forall x(\psi(x)) =1-(\frac{1}{K}\sum_{k=1}^{K}(1-\psi(x_{k}))^{q})^{\frac{1}{q}}, \end{aligned} \quad\quad(8)$

将一阶逻辑公式中定义的属性转化为次符号数字表示，从而监督transformer推理器预测的interaction ${\{}h_{1},\cdots,h_{M}\}$ 。例如，式5可以由式7和式8转化为：

$\mathcal{G}_{v,p}=1-\frac{1}{M}\sum_{m=1}^{M}\bigl(\frac{1}{K}\sum_{k=1}^{K}\bigl(s_{k}\bigl[v\bigr]\cdot s_{k}\bigl[h_{m}\bigr]\bigr)\bigr),\quad\quad(9)$

$s_{k}\bigl[v\bigr]$ 和 $s_{k}\bigl[h_m\bigr]$ 分别代表动作 $v$ 和交互 $h_m$ 对于输入样本 $x_k$ 的得分。在query中，human的空间位置与object的空间位置被整合，意味着空间关系已预先设定，并可直接从box预测中轻松获取。因此，公式11中的 $p (x)$ 被省略。action-position 损失被定义为 $\mathcal{L}_{v,p}=1-\mathcal{G}_{v,p}$ 。类似地，公式 6可以简化为：

$\mathcal{G}_{o,p}=1-\frac{1}{N}\sum_{n=1}^{N}(\frac{1}{K}\sum_{k=1}^{K}(s_{k}[v]\cdot s_{k}[h_{n}])),\quad\quad(10)$

$s_{k}\bigl[o\bigr]$ 代表输入样本 $x_k$ 的object得分。object-position损失定义为 $\mathcal{L}_{o,p}=1-\mathcal{G}_{o,p}$ 。

$\mathcal{G}_{v,p}$ 负责评估预测是否符合公式5 的规则。例如，若 action是"ride"的概率很高（即 $s_{k}\bigl[v\bigr]$ 值高），且位置关系是 “above”，但不可行的交互（如 “human-feed-fish”）的概率也很高，那么 $\mathcal{G}_{v,p}$ 的值会较低，以此对预测进行惩罚。 $\mathcal{G}_{o,p}$ 的计算方式类似。

通过公式9和10，作者的目标是让 Transformer 推理器在给定的 human 和 object 嵌入、位置，以及图像中潜在的actions，推测出哪一对 human 和 object 进行了何种交互。同时，这些预测需要遵循公式5和6中定义的规则。

3. 实验结果

实验以平均精度（mAP）为评估标准。V-COCO数据被分为两个情景，情景1涵盖了所有29个action类别，而情景2则排除了4个不涉及交互的action，分别报告了这两种情景下的mAP分数。对于HICO-DET数据集，评估涉及三个类别集：完整的600个HOI类别、138个训练实例少于10个的罕见HOI类别，以及剩余的462个非罕见HOI类别。

3.1 Zero-Shot HOI检测

表1展示了LOGICHOI与其他zero-shot HOI检测模型在HICO-DET测试集中的对比结果，LOGICHOI在以下三种设定中均显著超越竞争对手：1）对于未见过的<human, action, object>组合、2）未见object、3）未见verb。

这些显著的zero-shot泛化提升充分证明了所提出Transformer推理器的有效性。该推理器采用组合学习方式，并借助affordances和proxemics来应对全新情境。

3.2 常规HOI检测

表2对比了LOGICHOI与其他最佳模型在HOI检测中的性能。在HICO-DET测试中，LOGICHOI在完整、罕见和非罕见类别上的mAP分别提升了1.72%、2.78%和1.12%。在已知对象方面，LOGICHOI的mAP分数分别达到了38.21%、35.29%和39.03%。同时，在V-COCO测试中，LOGICHOI的平均mAP得分为65.0%，验证了其有效性。