论文:https://arxiv.org/pdf/2103.15691.pdf
开源代码:无
时间线:2021 arxiv
领域:行为识别
机构:google research
1.Motivation
使用纯transformer结构解决视频分类问题;
2.主要方法
2.1 transformer结构设计
一共四种transformer结构:1.直接复用原始transformer
2.Factorised encoder
3.Factorised self-attention
4.Factorised dot-product attention
2.2 token的构建
1.Uniform frame sampling
2.Tubelet embedding
3.效果
4,结论
目前video transformer 还刚刚兴起,可以关注一下今年ActivityNet Challenge的冠军方法,都是参照transformer进行改造的,目前来看是可以多多挖掘的方向