ECCV 2022 | 基于关系查询的时序动作检测方法

最新推荐文章于 2022-11-15 20:04:04 发布

我爱计算机视觉

最新推荐文章于 2022-11-15 20:04:04 发布

阅读量500

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247601094&idx=3&sn=4161556c19e49647bc122682e1671f55&chksm=96f13992a186b084bf96d8f3d8bd9ac8c1ac339f44b9310acb09bf0d4baecde0e0b0415012b6&scene=126&&sessionid=0

版权

关注公众号，发现CV技术之美

该工作希望通过 encoder-decoder 的框架（如 DETR 类方法），来解决时序动作检测（TAD）问题。但是，直接应用这些方法到 TAD 任务上会面临三个问题：1. decoder 中的 query 关系建模探索不充分; 2. 有限的训练数据导致的分类训练不充分; 3. 预测时分类得分的不可靠。

为了解决这三个问题，我们提出了基于关系的注意力机制，两个增强和稳定分类头训练的损失以及预测片段质量得分方法。ReAct 在 THUMOS14 上取得了先进的性能，同时，和之前方法相比，具有更低的计算量。本工作由京东探索研究院，北京航空航天大学，美团，悉尼大学联合完成，已被 ECCV2022 接收。

研究背景

由于深度学习时代的来临，时序动作检测(TAD)已经成为了热门的研究领域之一。受到图像目标检测的启发，One-stage 的检测方法能在相对简单的网络结构下表现出了优异的性能。同时，DETR[2]类方法的出现，提出了一种基于 Transformer 的 encoder-decoder 框架，也吸引了大量研究者对此方法的研究。我们的工作也参考了 DETR 的训练范式，将检测的动作片段建模成固定数量的可学习的查询向量(queries)。这些查询向量作为输入送入解码器中，并通过逐层 Cross-attention，利用编码器特征更新特征值。查询向量最后通过简单的全连接网络预测动作片段的位置和类别。

然而，直接将 DETR 类方法应用至 TAD 任务时，会面临几个问题。第一，decoder 中的密集self-attention 模块并没有被完全探索。相比与图像目标检测，在 TAD 任务里，数据具有更大的方差:各个视频里动作的长度以及数量差异较大。对于动作长度短、数量多的视频，需要用到大量的 queries 预测每一条动作片段；而对于动作数量少的视频，只需要较少的有效 queries 来预测，剩余的 queries 将作为背景信息帮助预测，但在实际中，这部分 queries里存在较多噪声的片段（无实际意义，或者对预测没有帮助的片段，如图 1 所示），容易对实际预测产生干扰。第二，分类头学习不充分。由于视频数据的复杂性，要获得准确的分类分数难度较高。与部分 Anchor-based/free 的方法里密集地按帧监督训练不同，DETR 方法每次只会训练与 Ground-truth 匹配的动作片段，正样本数量较少，因此容易导致分类预测不准确。第三，预测得分不准确。当多个 queries 预测相同的片段时，有更高的分类分数的query 预测的片段定位不一定更准确。

图 1 THUMOS14测试集中一条视频的Queries可视化

针对第一个问题，我们提出了一种基于关系的 self-attention 机制。我们构建了三种关系，分别为：显著相似关系、显著不相似关系和重复关系。我们将相似的或者是同类的动作片段定义为显著相似关系，将噪声或者不同类的动作定义为显著不相似关系，将指向同一动作的 queries 定义成重复关系。每条 query 只会和具有显著相似关系的 queries 计算 self-attention，同时我们还额外地添加一个 IoU Decay 的约束项，该约束项鼓励重复的 queries互相之间变得不同，从而得到更加多样性的预测。

对于第二个问题，我们提出了两种训练损失来提升分类头的准确性，分别为 Ace-enc 和ACE-dec 损失。第一个 Ace-enc 损失应用在 encoder 之前，我们添加了一层单层的全连接层对视频特征投影，并鼓励拉近同类的动作片段特征，增大非同类动作片段特征的方差。而ACE-dec 损失应用在 decoder 中。我们使用预测片段和 ground-truth 片段来训练分类头，从而增加了训练样本并稳定了分类头的训练信号。

而针对第三个问题，我们在测试的时候额外评估每个动作片段的定位质量得分，并和分类得分结合得到每个片段的最终得分。

实验表明，我们的方法在 THUMOS14 上取得了最先进的性能的同时，也有着比之前的方法更低的计算量。

方法

图 2 方法框架图

1、关系注意力与IoU衰减

对于每个query，我们通过特征相似度和片段之间的IoU值两个属性来构建关系集合。具体来说，我们基于Queries 特征计算一个相似度矩阵，这里是Queries的数量，矩阵的每个元素是两个Queries特征的余弦相似度。我们基于阈值构建显著不相似关系集合

同时，我们构建IoU矩阵，每个元素是两个Queries对应的Segment之间的IoU值。根据阈值 τ ，我们构建非重复关系集合

再将参考片段自身加入集合，我们可以构建每个Query的显著相似关系集合

构建完成后，每个Query只与其对应的显著相似关系集合内的元素计算self-attention。

除此以外，为了抑制重复关系集合的数量，我们引入了一个惩罚项IoU Decay，该项惩罚项惩罚query对应的片段之间的IoU值

2、动作分类增强

为了解决分类学习不充分的问题，我们提出了两个提升分类性能的损失，分别为Ace-enc损失和ACE-dec损失。

对于Ace-enc损失，我们在encoder之前加入了一个全连接层，对输入视频特征进行投影，并对每条动作片段使用RoI Pooling得到片段特征。我们为该片段在数据集内采集另一条相同类别的动作片段作为正样例，采样k条不同类别的动作片段，或者是同类别的动作片段内长度小于特定阈值的片段作为负样例，然后我们构建对比损失

我们的decoder使用类似deformable DETR‎[3]的cross-attention方法，这种方法每层都会预测一个片段区间，并在片段区间内采样固定数量的点以更新query特征（如图3左所示）。而为了增加训练样本数，对于每个被ground-truth匹配的Query，我们额外地将其对应的ground-truth片段（作为新的分支）送入每一层decoder中，使其作为参考片段区间，并用其更新Query，新更新的Query最终也会被送入分类头中训练。因此，我们的ACE-dec损失定义为

这里，原始的分类损失和ground-truth损失我们都使用focal loss‎[4]来计算分类损失。

图 3 原始的Deformable decoder结构（左）与ReAct的Decoder结构（右）

3、片段质量预测

除了原有的回归头和分类头以外，我们额外添加了一个片段质量头来估计片段的质量，在实现上，给定一个预测的片段和它对应的query特征，我们定义，其中是单层的全连接层。而Segment Quality定义为。在训练时，我们使用预测片段中点和与其ground-truth片段中点的偏移量以及它们之间的IoU值来监督，整体损失定义为

在预测时，我们将分类得分和质量 ζ 得分相乘，得到每个Query预测片段的最终得分。

实验结果

表 1 在THUMOS14数据集上的表现

我们使用不同阈值下的mAP，以及浮点运算量FLOPs（G）作为评价指标

如表1所示，在THUMOS14上，我们的方法在不同的mAP阈值上都超过了先进的one-stage和two-stage方法，同时，在测试的时候有着更少的计算量。

表 2 不同部件的消融实验

表2也通过消融实验验证了我们三个不同部件的效果。我们的关系注意力模块能有效地提升网络性能，而另外两个模块也有着不错的效果。

表 3 关于ACE模块的消融实验

而表3也提供了关于ACE模块里面两个损失的更细致的实验结果，包括正负样例的选取，损失的位置，以及两个分类损失的作用。其中值得注意的是，我们发现ACE-enc损失放在Transformer Encoder之后会有较大的性能损失，而放在一个单层的全连接层之后，Transformer Encoder之前会有比较好的效果。一个比较直觉的解释是，经过Transformer Encoder后，每个时间位置上的特征已经包含了local的信息，因此，pooling的特征不能精准地表示动作的特征。除此以外，我们发现只训练原有的分类头损失和只训练ground-truth片段带来的分类头损失都效果不佳，但是将两者结合以后训练能带来有效地提升。

结论

在这个工作中，我们提出了一个基于DETR类学习范式的TAD框架，并通过三大方法去缓解直接将DETR方法应用至TAD任务时的问题，包括基于关系的注意力模块，动作分类增强损失和片段质量预测。我们的方法在THUMOS14上取得了SOTA的性能，同时具有更少运算量。更深入的消融实验验证了我们每个方法的有效性。

论文链接:

https://arxiv.org/abs/2207.07097

代码链接:

https://github.com/sssste/React

参考文献

[1]. Shi, Dingfeng, etal. "ReAct: Temporal Action Detection with Relational Queries." arXive- prints (2022): arXiv-2207.

[2]. Carion, Nicolas, et al. "End-to-end object detection with transformers." European conference on computer vision. Springer, Cham, 2020.

[3]. Zhu, Xizhou, et al. "Deformable DETR: Deformable Transformers for End-to-End Object Detection." International Conference on Learning Representations. 2020.

[4]. Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision. 2017.

本文转自京东探索研究院。

END

欢迎加入「动作检测」交流群👇备注：动作

我爱计算机视觉

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
ECCV 2022 | 基于关系查询的时序动作检测方法

关注公众号，发现CV技术之美该工作希望通过 encoder-decoder 的框架（如 DETR 类方法），来解决时序动作检测（TAD）问题。但是，直接应用这些方法到 TAD 任务上会面临三个问题：1. decoder 中的 query 关系建模探索不充分; 2. 有限的训练数据导致的分类训练不充分; 3. 预测时分类得分的不可靠。为了解决这三个问题，我们提出了基于关系...
复制链接

扫一扫