ASM-Loc: Action-aware Segment Modeling for WTAL论文笔记（CVPR2022)

爱发呆的WWT

已于 2023-10-21 15:07:33 修改

阅读量160

点赞数 1

分类专栏：时序动作定位文章标签：论文阅读人工智能论文笔记

于 2023-10-21 15:03:08 首次发布

本文链接：https://blog.csdn.net/m0_60273616/article/details/133961439

版权

时序动作定位专栏收录该内容

14 篇文章 1 订阅

订阅专栏

ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization论文笔记（CVPR2022）

论文地址：https://arxiv.org/pdf/2203.15187v1.pdf

代码地址：https://github.com/boheumd/asm-loc

一、任务背景

现有的WTAL方法大多采用多示例学习( MIL )形式，通常将视频中的片段（snippets）视为独立的实例，忽略了动作片段内部和跨动作片段的潜在时间结构。
目前WTAL任务中的挑战：
- 定位完整性，由于对动作边界的预测不准确，模型往往会生成不完整或过完整的动作片段。
- 短动作片段的漏检，其中模型偏向于持续时间较长的片段，并对短动作产生低置信度的预测。
这些挑战本质上是由于缺乏帧级注释而导致的困难，但作者认为，现有基于MIL的方法中缺乏基于段（segment）的建模是导致结果不佳的一个关键原因，该方法将视频中的片段(video中的snippets）作为独立的实例，在特征建模或预测阶段忽略其潜在的时间结构。

这里作一个说明，看了WTAL相关的代码处理过程就会知道，有这样几个概念，segment，snippet，proposal。

在时间长度上对特征的处理是以每个时间步为单位的，多个时间步构成一个时间组segment，每个segment都有一个预测的类别和分数。
一个输入视频被分为 K 段（segment），一个片段（snippet）从它对应的段中随机采样得到。采样得到子片段：(T1,T2,…,Tk)表示K个采样得到的snippets(子片段)
预测最终的时序区间proposal[start,end]

（也就是说以前的工作没有对一个video中的segment，snippet之间的关系进行建模，都是整段整段video的处理的，但是本篇文章做了）

二、创新模块

动态片段采样，以补偿短动作的贡献；
用于建模动作动态和捕捉时间依赖的段内和段间注意力；
改进动作边界预测的伪实例级监督。
此外，提出了一种多步精化策略，在模型训练过程中逐步提高动作建议。

三、研究内容

在这里插入图片描述

1.Base model基本模块

ACM-Net的主要框架，保留instance分支和背景分支
Base-loss，基本的3个分类损失

2.动作感知片段建模

a.动态片段采样Dynamic Segment Sampling

未修剪视频中的动作片段可能具有不同的持续时间，从小于2秒到大于1分钟不等。直观上，短动作具有较小的时间尺度，因此，其信息在整个特征建模阶段容易丢失或失真。
作者提出了一个新颖的片段（segment）采样模块，根据估计的动作持续区间长度（duration），动态地上采样upsample动作提名。
得到采样权重向量W（dynamic segment weight)：在形式上，首先初始化一个采样权重向量W，其值在所有时间步都等于1。然后，我们计算持续时间小于预定义阈值γ(12)的短建议的更新采样权重：其中sn，en表示第n个行动建议的开始和结束时间。
采样过程基于逆变换采样方法：直觉是以与它们的采样权重W成比例的帧率采样片段。首先计算采样权重的累积分布函数fW = cdf ( W )，然后从累积分布函数的逆中均匀采样T个时间步。
这样，每个提议的放大比例根据其估计的持续时间动态计算。上采样时均使用线性插值。
动态分段采样是基于采样权重向量W的累积分布。T轴上的红色圆点代表最终采样的时间步长。较短的动作片段具有较高的放大比。

b.段内段间注意力Intra- and Inter-Segment Attention

段内注意力：
- 未修剪的视频通常由不相关的背景片段主导，这些背景片段为动作片段建模过程引入了额外的噪声。受此启发，作者提出了段内注意力模块，在每个动作提名中执行自注意力。
- 使用掩膜注意力机制a masked attention mechanism来描述这个模块，如图2 ( c )所示。具体地，定义了一个注意力掩码M∈T × T来表示不同动作提案对应的前景片段。注意力掩码首先在所有条目以0初始化，并为所有提议分配M [ sn : en , sn : en] = 1。然后将注意力掩膜应用于标准自注意力方法计算的注意力矩阵：其中WQ，WK，WV，WO是用于产生查询query、密钥key、值value和输出output的线性投影矩阵。还采用了多头注意力来提高注意力模块的容量。
- 通过这种方式，显式地建模了每个动作提议中的时间结构，避免了无关和嘈杂的背景片段的负面影响
段间注意力
- 未修剪视频中的动作片段通常涉及彼此的时间依赖关系。例如，“板球保龄球"往往紧随其后的是"板球射门”，而"排球扣球"通常在视频中重复多次。捕获这些动作片段之间的依赖关系和相互作用，可以提高识别和定位的性能。
- 与段内注意力模块类似，利用自注意力机制对多个动作提议之间的关系进行建模。如图2 ( d )所示，首先在时间维度上通过平均池化聚合每个动作提案中的片段级特征。然后在所有段级特征应用多头自注意力来建模不同动作提议对之间的交互。输出特征沿时间轴进行复制，并以残差的方式添加到原始特征X中。

c.伪实例损失Pseudo Instance-level Loss

由于缺少片段级标注，标准的基于MIL的方法仅依赖于视频级动作类别标签提供的视频级监督。为了进一步细化动作边界的定位，作者利用动作提名提供的伪实例级标签，提出了一个伪实例级损失，它提供了比视频级损失更细粒度的监督。
给定动作提名，通过为属于动作提名的片段分配动作标签和为所有其他片段分配背景类标签来构造伪实例级标签（750*21维，每个snippet上预测instance处为1，没有instance处背景类为1）。值得注意的是，" Q "也用L1标准化。
由于行动建议是由模型预测产生的，因此不可避免地会产生不准确的伪实例级标签。为了处理标签噪声的影响，作者引入了一个不确定性预测模块，引导模型从噪声的伪标签中学习。
具体来说，使用一个FC层来输出不确定性分数U，然后将其用于二次加权每个时间步的伪实例级损失。直觉上，不确定性得分高的实例对损失的贡献有限。结合不确定性分数，伪实例级损失可以表示为时态CAS P和伪实例级标签Q之间的**平均交叉熵。**其中β是权重衰减项的超参数，它阻止不确定性预测模块对所有时间步(因此零损耗)预测无限不确定性。

d.多步骤提名优化Multi-step Proposal Refinement

行动提名在行动感知建模中扮演着重要的角色。提名质量与方法中多个成分的表现正相关。虽然初始行动提名是从基础模型中获得的，但是可以直观地利用本文的ASM - Loc生成的优越的预测结果来生成更准确的行动提名。基于这一动机，作者提出了一个多步骤的训练过程，通过多个步骤逐步细化行动提名。
- 首先训练E个epoch的base模型，得到初始动作提议。
- 之后，在另一E个epoch训练ASM - Loc，得到更精确的动作位置和持续时间估计的精细动作提名。
- 同样的过程可以应用多个step，直到行动提名的质量收敛。

四、实验结果

1、和SOTA对比

公开数据集：THUMOS-16和ActivityNetv1.3
实验设置：预训练的特征提取网络I3D；Adam优化器；THUMOS - 14和ActivityNet - v1.3的学习率为0.0001，小批量规模分别为16、64，采样片段数T分别为750和150；多步提名优化时，THUMOS - 14和ActivityNet - v1.3分别设置E为100和50个epoch。
THUMOS - 14上的结果：在IoU阈值为0.1：0.7时，平均mAP为45.1%。特别地，我们的方法优于UGCT，它也利用伪标签来指导模型训练，但没有显式的分段建模。即使与全监督方法相比，在IoU阈值较低时，ASM - Loc也优于SSN和TAL - Net，并与GTAN和P - GCN取得了相当的结果。结果证明了我们的方法在动作感知的片段建模方面的优越性能。
ActivityNet - v1.3上的结果：获得了**平均mAP为25.1 %**的最新性能，超过了最新的( e.g. UGCT 、FAC - Net )。
在两个数据集上一致的优越结果证明了ASM - Loc的有效性。

2、消融实验

a.各组分的贡献：

在这里插入图片描述

首先观察到加入背景损失 $L_{bg}$ 和动作感知背景损失 $L_{abg}$ 很大程度上提升了基础模型的性能。这两个损失通过将背景注意力权重att推到背景片段为1来鼓励前景注意力权重中的稀疏性，从而改善前景-背景分离。
对于动作感知的片段建模，显然可以通过添加本文提出的任何模块来实现一致的增益(≥1 % )（单一模块的增益都在1.5%左右）。
- 特别地，在特征建模阶段(即, intra -inter注意力)引入分段建模，性能显著提升2.4 %。
- 两个注意力模块相辅相成，专注于建模动作片段内和跨动作片段的时间结构。
- 当将所有动作感知片段建模模块合并在一起时，本文方法将最终的性能从40.3 %提升到45.1 %。

b.问题思考：

动作提名对于自注意力是否必要?
- 作者提出了一个在动作提名内执行的段内注意力来抑制来自背景片段的噪声。为了验证设计的有效性，在表4中比较了自注意力的不同设置。
- Global 、BG 分别表示对所有片段和背景片段的自注意力。
- 具体来说，Global设置表示自注意力操作直接应用于未修剪视频中的所有片段。可以观察到，这种设置没有给baseline提供任何增益，因为由于存在不相关和噪声的背景片段，模型无法捕获有意义的时间结构。此外，BG设置仅代表对背景片段的自我关注，其影响是负面的甚至得到了更糟糕的定位结果。
- 最后，本文的段内注意力在很大程度上超过了这两种设置，这表明了在动作提名内部应用自注意力的重要性。本文还提出了使用GT动作片段作为片段内注意力的建议的设置。这个设置可以看作是这种方法的一个上界，它提供了比基线更显著的增益。这一观察启发作者通过多步细化来进一步完善行动提名。
动态分段采样的影响。
- 在表5中，评估了动态分段采样对不同持续时间的动作片段的影响。
- 将所有动作片段按照每秒持续时间分为5组，并分别对每组的平均mAP进行评估。短动作( XS , S)的定位性能要比长动作( M、L、XL)差得多。通过动态分段采样模块对短动作进行上采样，模型在短动作( XS为+ 4.9 % , S为+ 1.2 %)上取得了显著的增益，整体性能提升了1.1 %。类似地，给出了使用groundtruth片段注释进行动态片段采样的结果，与baseline相比取得了更大的改进。
不确定性估计的影响。
- 提出了一个不确定性估计模块来缓解伪实例级监督中的噪声标签问题。表6显示，在不同的IoU阈值下，使用不确定性估计一致地提高了定位性能，平均mAP提高了1 %。
多步细化的影响。
- 表中在提名优化阶段做了增加优化步骤的数量的探究。可以看到，性能随着步数的增加而提高，表明通过改进的建议可以获得更好的定位结果。采用3个改进步骤作为默认设置，因为在此之后性能饱和。
定性分析
- 图3展示了基础模型与ASM - Loc的可视化对比。
- 现有基于MIL的方法中的常见错误可以通过本文的动作感知段建模方法部分解决，例如短动作的漏检和动作的不完全定位以及动作过完全定位。
- 作者还提供了图3 ( c )中的一个失败案例，在该案例中，本文方法由于基本模型生成的动作建议在很大程度上是不对齐的，因此无法定位第一个动作片段。这也验证了提高行动提名质量的重要性，应在今后的工作中进一步研究。

c.总结

本文提出了一个新的WTAL框架ASM - Loc，它能够在以往基于MIL的方法之外实现显式的动作感知片段建模。引入了与WTAL管道的三个阶段相对应的三个新颖的以段segment为中心的模块，缩小了弱监督和强监督设置之间的性能差距。该方法进一步引入多步训练策略来逐步细化动作建议直到定位性能达到饱和。ASM - Loc在两个WTAL基准上取得了SOTA。

爱发呆的WWT

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ASM-Loc: Action-aware Segment Modeling for WTAL论文笔记（CVPR2022)

本文提出了一个新的WTAL框架ASM - Loc，它能够在以往基于MIL的方法之外实现显式的动作感知片段建模。引入了与WTAL管道的三个阶段相对应的三个新颖的以段segment为中心的模块，缩小了弱监督和强监督设置之间的性能差距。该方法进一步引入多步训练策略来逐步细化动作建议直到定位性能达到饱和。ASM - Loc在两个WTAL基准上取得了SOTA。
复制链接

扫一扫

专栏目录