一、研究工作
论文作者:
1、Chen-Lin Zhang⋆,南京大学新型软件技术国家重点实验室,北京4paradigm公司
2、Jianxin Wu,南京大学新型软件技术国家重点实验室
3、Yin Li , 美国威斯康星大学麦迪逊分校
研究目的:
论文解决视频理解中的时间动作定位(TAL)问题,在长序列视频中识别动作的开始和结束时间位置并分类。提出了一个基于Transformer的单阶段无锚框模型—actionformer,可以及时识别并定位动作,无需使用action proposal或预定义的anchor window。ActionFormer将多尺度特征表示与局部自关注相结合,使用轻量级解码器对每一个时刻进行分类并估计相应的动作边界。
相关工作:
主要是有关目标检测方面的知识,将目前有的方法分为两类
1、两阶段TAL
首先生成候选视频片段作为动作proposals,并进一步将动作proposals分类为动作,并细化时间边界。
以前的工作主要集中在动作proposals的生成上,通过对锚窗进行分类或检测动作边界,使用的方法主要是图表示或Tannsformer。最近的研究使用图神经网络或注意机制来研究proposals之间的时间上下文建模。
2、单阶段TAL
没有显式的Proposal生成阶段。直接在特征图上进行分类和边框回归,一次性输出检测结果。
本文论文任务属于单阶段无锚框TAL
二、实验设计
输入:视频序列X
Encode Videos with Transformer: 将视频序列转换为多尺度特征
Decoding Actions in Time:将金字塔特征编码为标签序列
输出:动作种类及时序边界
方法构建了一个基于 Transformer 的模型,通过分类每个时刻并估计动作边界来检测动作实例。编码器由Transformer网络进行参数化。解码器采用轻量级卷积网络。为了捕获不同时间尺度上的动作,设计了一个多尺度特征表示,形成具有不同分辨率的特征金字塔。
具体而言,ActionFormer 首先提取一系列视频片段特征,并对每个特征进行嵌入。嵌入后的特征使用多尺度 Transformer 进一步编码为特征金字塔