完全监督时序动作定位Fully Supervised Temporal Action Localization 论文阅读

proposal + classification

目前fully supervised动作定位算法可以分为两类:top-down和bottom-up。top-down方法通过滑动不同尺度的窗口获取proposals,它的缺陷在于 生成的proposals通常在时间上不够精确或不够灵活,无法涵盖不同持续时间动作实例。bottom-up方法分为两个阶段 (1)定位时间边界并将边界合并为提案;(2)使用构造的提案特征评估每个提案的置信度。

时序动作提案生成文章链接:Temporal Action Proposal Generation

CVPR2022

Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization

时序动作定位的主要挑战是如何从海量的伴随动作同时出现的共现信息中检索微妙的人类动作。

一方面指出时序边界的模糊性是共现信息主导了真实的动作内容,造成不准确的边界预测。

另一方面,完全监督设置下,边界标签包含的场景等信息使得模型过度依赖这些共现信息检索动作。过度依赖共现信息也会造成误分类。如下图所示。

 本文提出的方法 RefactorNet 是一个预处理过程。出发点是更好地平衡视频中的动作成分和共现成分。动作成分是指描述在一个视频片段中发生的动作的特征,包括一个或多个人的运动模式及其与对象的交互。共现成分指的是不描述任何动作,但经常在一个帧或一个视频片段中与它们同时出现的特征。这包括特定于类的背景,它只与某些动作频繁地同时出现,例如,田径场;和类别不可知的背景,它们的出现与动作类别不太相关,例如,天空。

RefactorNet旨在通过解耦加重构的方式获得一个更适合视频表征来进行动作定位。首先解耦的目的是显式地操控动作成分和共现成分,它利用动作片段和非动作片段的相似性和差异性进行特征解纠缠,然后利用KL散度损失函数使解耦出的共现成分服从标准的正态分布,降低其对动作检测器的负面影响。重组的目的是保留共现信息中的上下文信息,即对某些动作分类有益的信息。实验也证明了只保留动作成分是不足够的。

 

CVPR 2022

RCL : Recurrent Continuous Localization for Temporal Action Detection

当前方法一直对short instance检测不佳,RCL提出连续anchor表征来有效地解决对short-term segments的漏检。

背景:受到2D object detection的影响,TAL通常采用离散的anchor机制。无论是anchor-based还是anchor-free的,都是分类回归离散的anchor或proposal。

ICCV 2021

Class Semantics-based Attention for Action Detection

当前的TAL方法都采用 feature encoder + localization netowork for regression and classification 的pipeline。这些方法没有采用任何注意力机制使得localization network关注重要的特征。

本文提出一个Class Semantics-based Attention(CSA), 它从输入视频中动作类的语义的时间分布中学习,以找到编码特征的重要性分数。具体来说作者提出一个类似于SENet的注意力机制,它能从编码特征的channel和temporal axes两方面为重要的语义特征提供注意力分数。实验证明本文提出的方法是model-agnostic。

 

Architecture: 融合了CSA注意机制的通用TAL架构。常用的动作检测架构由三个主要组件组成:(1)一个基于动作识别的特征编码器,比如I3D,提取类语义丰富的特征,记为R,(2)一个映射R到F的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>