GST: Grouped Spatial-Temporal Aggregation for Efficient Action Recognition 论文阅读

rca_finforc

于 2021-10-30 14:44:07 发布

阅读量973

点赞数

分类专栏：笔记文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rca_finforc/article/details/121046369

版权

本文介绍了一种名为GST的新型方法，通过分解3D卷积核为时间与空间并行处理，有效地进行动作识别。针对时序性强的动作识别任务，如Diving48和Epic Kitchen，GST在降低计算复杂性的同时保持高识别性能。研究发现，仅对部分通道进行时间建模可提高网络效率和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Grouped Spatial-Temporal Aggregation for Efficient Action Recognition

要解决的问题：作者对比了Kinetic和Diving48这两种类型的数据集。Kinetic通过静态场景和物体就可识别，甚至打乱顺序也没关系；而Diving48时序相关性较强，只用帧级别的推断是无法得到正确分类结果的。

使用的方法：时间和空间两条并行的支路分别实现时序推理（获取动作信息）和外观信息捕捉（获取静态信息）。使用了分解的思路 $3\times3\times3\rightarrow1\times3\times3+3\times3\times3$

Abstract

以前的工作试图通过解耦空间和时间滤波器来降低复杂性。而这篇论文提出了一种并行分解的方法，来并行地将特征通道降维为时间和空间两组。

这种分称之为GST（组时空聚合）的方法使得我们可以量化地分析不同层之间时空特征的贡献并使参数更高效。

在多个需要时序推理的动作识别任务（比如：Diving48, Epic Kitchen and EGTEA Gaze+）上取得了好成绩。

Introduction

Temporal Reasoning

对于UCF101和Kinetics这种没有时序推理或者说时序推理需求弱的可以打乱时间序列亦无影响。但是对于abstract中所属的那三个数据集而言，时序推理必不可少。

Appearance Encoding

结论：外观信息对时序推理很重要

如下图所示，上面两张图片为“扔起某物并抓住”，而第二行是“把某物扔到空中让其自由掉落”。我们可以通过只看到单个帧来缩小可能的解释范围。我们可以通过观察状态的变化，从稀疏采样的帧中推断出动作。

在这里插入图片描述

group convolution

结论：通道和通道之间其侧重点不同，有的侧重于外观有的侧重于动作。

如下图所示，左边三个是sth-sth v1 v2，右边是时序相关性强的数据集。

在这里插入图片描述

整体上来看可以发现，大部分的块中temporal支路看重的通道和spatial支路看重的通道并不重合。

从左边一列可以发现， $\alpha=\frac{1}{2}$ 即提取时间信息的通道数量比上总通道数量=1/2时，时空信息较1/4和1/8更难以区分。说明太多的时间通道可能会编码额外的静态信息。

右边一列可发现，需要时序信息的数据集中，低级特征中空间信息更重要（关注于静态线索）；高级特征中时间信息更有需求（关注于动态线索）。（论文说：这可能是由于单个帧中的对象线索往往不足以确定该动作。）

Related Works

Temporal Modeling

一、2D卷积方法

TSN提出了新的采样策略并使用后部融合策略（late fusion strategy，也许指的是对多段进行segment consensus然后综合起来作为视频级结果）来聚合每一帧的特征。

TRN引入多尺度多层感知机用于时间聚合。

以上两个方法都使用了late fusion strategy，都是2D卷积神经网络，在需要时序推理的数据集上表现得不那么好。

二、3D卷积方法

比如C3D、I3D、P3D，用了大量的参数故难以训练。

I3D即使用了一种inflate方法，将 $1\times3\times3$ 的卷积核拓展（复制）成为 $3\times3\times3$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。