ActionFormer阅读笔记

一、研究工作

论文作者:

1、Chen-Lin Zhang⋆,南京大学新型软件技术国家重点实验室,北京4paradigm公司

2、Jianxin Wu,南京大学新型软件技术国家重点实验室

3、Yin Li , 美国威斯康星大学麦迪逊分校

研究目的:

论文解决视频理解中的时间动作定位(TAL)问题,在长序列视频中识别动作的开始和结束时间位置并分类。提出了一个基于Transformer的单阶段无锚框模型—actionformer,可以及时识别并定位动作,无需使用action proposal或预定义的anchor window。ActionFormer将多尺度特征表示与局部自关注相结合,使用轻量级解码器对每一个时刻进行分类并估计相应的动作边界。

相关工作:

主要是有关目标检测方面的知识,将目前有的方法分为两类

1、两阶段TAL

首先生成候选视频片段作为动作proposals,并进一步将动作proposals分类为动作,并细化时间边界。

以前的工作主要集中在动作proposals的生成上,通过对锚窗进行分类或检测动作边界,使用的方法主要是图表示或Tannsformer。最近的研究使用图神经网络或注意机制来研究proposals之间的时间上下文建模。

2、单阶段TAL

没有显式的Proposal生成阶段。直接在特征图上进行分类和边框回归,一次性输出检测结果。

本文论文任务属于单阶段无锚框TAL

二、实验设计

输入:视频序列X

Encode Videos with Transformer: 将视频序列转换为多尺度特征

Decoding Actions in Time:将金字塔特征编码为标签序列

输出:动作种类及时序边界

方法构建了一个基于 Transformer 的模型,通过分类每个时刻并估计动作边界来检测动作实例。编码器由Transformer网络进行参数化。解码器采用轻量级卷积网络。为了捕获不同时间尺度上的动作,设计了一个多尺度特征表示,形成具有不同分辨率的特征金字塔。

具体而言,ActionFormer 首先提取一系列视频片段特征,并对每个特征进行嵌入。嵌入后的特征使用多尺度 Transformer 进一步编码为特征金字塔

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值