【CV | TAL】论文浅读 - - TemporalMaxer: Maximize Temporal Context with only Max Pooling for TAL


前言

TAL(Temporal Action Localization)任务是一种计算机视觉任务,旨在从视频中准确定位和识别动作的时间段。与传统的动作识别任务不同,TAL任务不仅需要识别视频中的动作类别,还需要确定每个动作在视频时间轴上的起始时间和结束时间,TAL任务通常包括以下两个关键步骤:

动作检测(Action Detection):这一步骤的目标是在视频中检测出存在的动作,并确定它们的时间段。通常使用滑动窗口或候选区域的方法来生成候选动作片段,然后通过分类器或回归器来判断每个候选片段是否包含特定的动作类别,并预测其起始和结束时间。

动作分类(Action Classification):在动作检测的基础上,这一步骤的目标是对每个检测到的动作片段进行分类,即确定该片段属于哪个动作类别。通常使用分类器来对每个动作片段进行分类,可以是基于传统的机器学习方法,也可以是基于深度学习的方法。

在这里插入图片描述


一、TemporalMaxer论文摘录

论文地址: https://arxiv.org/abs/2303.09055
源码仓库: https://github.com/TuanTNG/TemporalMaxer

1、研究动机

最近在视频理解领域的研究强调了对提取的视频片段特征应用长时序情境建模(TCM)模块的重要性,例如采用复杂的自我注意机制等方法来建模这种长时序的语境关系。现有的TAL模型可以大致拆解为,首先使用从预训练好的 3D-CNN 网络(如 I3D 和 TSN)中提取的特征作为输入,然后编码器(称为骨干网络)将特征编码到潜在空间,解码器(称为检测头)预测动作实例。

现有骨干网络可以大致分成几种,AFSD模型中提出用一维卷积层捕捉局部时间上下文关系,G-TAD 模型创新性利用图结构建模特征间的时空语义关系,ActionFormer将Transformer架构用于建模长期时序上下文依赖。
在这里插入图片描述
但现有方法存在以下几点问题:
1、这种长时序情景建模的代价是高昂的计算成本和开销,而且这些方法,包括Transformer的自注意力机制和GNN的信息聚合机制的有效性尚未得到仔细分析。骨干网络局限于需要昂贵参数和计算的Transformer架构。
2、与其他领域(如机器翻译任务中的输入特征序列具有较大差异)不同的是,视频片段呈现出较高的冗余度,这导致了预提取特征的高度相似性,而自注意力机制和图结构会让特征序列相似度变高,不利于做特征区分。

研究者通过实验分析还发现,自注意力机制会将嵌入的特征序列平均化,这样的效果近似于平均池化,在长时序情境建模下,冗余的相似帧会导致丢失时序上局部的微小变化。

当输入的片段嵌入高度相似时,考虑到值特征 V 高度相似且注意力得分平均分配,Transformer倾向于像平均池化那样对嵌入的序列特征进行平均池化。相比之下,最大池化可以保留相邻嵌入的特征序列的最关键信息,并进一步去除视频中的冗余信息,从而加强了动作边界特征和背景特征的区分度,提高了的定位准确性。

在这里插入图片描述

2、改进方法分析

研究者受最近用类似 MLP 的模块或傅立叶变换取代注意力模块的成功方法的启发,他们认为这些模块的基本要素是标记混合器,可汇总标记间的信息。基于将骨干网络参数最小化,集中精力最大限度地提高关键信息量的想法,研究者提出了TemporalMaxer模型,它通过一个基本的、无参数的、局部区域运行的最大池化块,在最大化提取的视频片段特征信息的同时,最小化了长时序时空语义关系建模。

TemporalMaxer利用最大池化块(Max Pooling)来动态建模时序上下文依赖,最大池化块(Max Pooling)应用于时序特征金字塔层级之间,以最大限度地提高高相似度的嵌入序列特征的关键信息特征的传递。具体来说,它首先使用预先训练好的 3D CNN 提取视频中每个片段的特征。接着骨干网对片段特征进行编码,形成多尺度特征金字塔。骨干网络由一维卷积层和 TemporalMaxer 层组成,最后轻量级分类和回归头将特征金字塔解码为每个输入时刻的候选动作。
在这里插入图片描述
下面具体看看编码器和解码器的网络细节:

编码器部分主要由投影层和最大池化模块组成。输入的视频特征序列可以表达为 X = x 1 , x 2 , . . . , x T , x i ∈ R 1 × D i n X = {x_1, x_2, ..., x_T }, x_i ∈ R^{1×D_{in}} X=x1,x2,...,xT,xiR1×Din, 首先在特征序列的第一维度上进行拼接,然后输入中的两个特征投影模块 E1 和 E2,得到具有 D D D 维特征空间的投影特征 X p ∈ R T × D X_p ∈ R^{T ×D} XpRT×D。每个特征投影模块包括一个一维卷积神经网络层,并进行层归一化操作和ReLU激活函数非线性化操作。
在这里插入图片描述
TemporalMaxer即最大池化块,采用步长为 2,窗口为3的大小对序列特征进行最大池化操作,来构建堆叠特征金字塔层,其中 Z l ∈ R T 2 l − 1 × D , 2 < = l < = L Z^l ∈ R^{\frac{T}{2^{l-1}} ×D},2 <= l <= L ZlR2l1T×D2<=l<=L
在这里插入图片描述
解码器采用轻量级卷积神经网络进行解码,由分类头和回归头来对每个时段的动作进行预测。 Z l ∈ R T 2 l − 1 × C Z^l ∈ R^{\frac{T}{2^{l-1}} ×C} ZlR2l1T×C 是第 l l l 层的潜在特征, C l = c 0 , c 2 l − 1 , . . . , c T ∈ R T 2 l − 1 × C C_l = {c_0, c_{2^l−1} , ..., c_T } ∈ R^{\frac{T}{2^{l-1}}×C} Cl=c0,c2l1,...,cTR2l1T×C 表示第 l l l 层的动作分类标签的概率, O l = ( o 0 s , o 0 e ) , ( o 2 l − 1 s , o 2 l − 1 e ) , . . . , ( o T s , o T e ) ∈ R T 2 l − 1 × C O_l = {(o^s_0, o^e_0), (o^s_{2^l−1} , o^e_{2^l−1}), ..., (o^s_T , o^e_T)} ∈ R^{\frac{T}{2^{l-1}}×C} Ol=(o0s,o0e),(o2l1s,o2l1e),...,(oTs,oTe)R2l1T×C 表示第 l l l 层的动作起始和偏移预测。 E E E 表示一维卷积层,并进行层归一化操作和ReLU激活函数非线性化操作。 F c F_c Fc F o F_o Fo 均为一维卷积层。
在这里插入图片描述
该模型预测输入特征序列 X X X 的每一时刻的 ψ ^ t = ( o t s , o t e , c t ) \hat ψt = (o_t^s, o_t^e, c_t) ψ^t=(ots,ote,ct)。参照以往的工作,采用 Focal Loss和 DIoU loss分别监督分类和回归输出。总体损失函数定义为
在这里插入图片描述

其中 L r e g Lreg Lreg 表示回归损耗,只有当指示函数 1 c t 1_{ct} 1ct 显示当前时间步长 t t t 为正样本时才会使用。 T + T+ T+ 是正样本的数量。 L c l s Lcls Lcls 表示分类损失。

3、实验细节

实验表明, TemporalMaxer 方法在各种具有挑战性的数据集(即 THUMOS、EPIC-Kitchens 100 、MultiTHUMOS 和 MUSES)上都取得了出色的成果,这四个数据集是TAL任务结果的标准评估指标。

为了确保比较的公平性和公正性,研究者采用了baseline模型ActionFormer的实验设置。这一设置包括解码器设计、后处理阶段的非最大抑制(NMS)超参数、数据增强、学习率、特征提取和特征金字塔级数等多个部分。在训练过程中,输入特征长度保持不变,为 2304,相当于 THUMOS14 和 MultiTHUMOS 数据集上约 5 分钟的视频,EPIC-Kitchens 100 数据集上约 20 分钟的视频,MUSES 数据集上约 45 分钟的视频。此外,还采用了模型 EMA 和梯度剪切技术,以提高训练的稳定性。

研究者为了说明TemporalMaxer建模长时序情境关系的有效性,在TCM模块的选择上进行了消融实验。

实验表明,由卷积层组成的TCM模块由于视频片段特征信息丰富但高度相似,而卷积权重参数在训练后是固定的,因此卷积操作无法保留不同嵌入序列特征中信息量最大的特征。其次,卷积层引入的参数最多,存在较高过拟合风险,泛化能力一般

子采样(Subsampling)组成的 TCM 块在处理视频特征序列之后只保留了一半的视频片段嵌入信息,容易丢失最关键的信息

平均池化(Average Pooling)和 Transformer 两种TCM模块由于不会丢弃任何嵌入特征序列,无助于保留凸显关键信息
在这里插入图片描述
所以TemporalMaxer 的有效性在于可以效地突出了附近片段中的关键信息,而丢弃了不太重要的信息。这一结果表明,来自预训练 3D CNN 的特征信息量很大,可以有效地用于 TAL 模型,而无需像之前的作品那样使用复杂的模块。

上述实验中,所有 TCM 块的内核大小均为 3。随后的消融实验分析了TCM 块的内核大小不同带来的影响,结果就是使用内核大于3的TCM块的模型性能呈下降趋势,也说明了内核大小为 3 的TCM 块能有效捕捉当前任务的相关时序信息。


总结

TemporalMaxer的工作主要有两大贡献有:模型设计有效保留了信息冗余度极高的视频片段特征中最关键的信息,提高了模型动作分类定位的性能;模型骨干网络的设计低参数化,减少计算开销和时间成本
在这里插入图片描述
最后的实验结果表明,TemporalMaxer在四大数据集上均取得SOTA的性能,再次刷新了TAL任务的模型榜单

  • 20
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szu_ljm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值