行为识别 - Video Transformer Network

0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:Theator公司
    • 发表时间:2021.2
  • 一句话总结:CNN+LSTM中把LSTM换成Transformer

1. 要解决什么问题

  • Transformer 用到视觉中的主要问题就是,如何构建输入序列。
    • VIT 将 Transformer 引入图像分类,就是将图像分为若干个不重叠的patch作为输入序列。
    • 那么一个视频,要如何转换为序列,作为Transformer的输入呢

2. 用了什么方法

  • 总体结构如下图所示,一共可以分为三个部分:
    • 2D spatial feature extraction:提取每一帧的图像,可以用CNN也可以用VIT等纯transformer。
      • 这个没啥好具体说的,其实就是提取特征,可以随机初始化并和Longformer一起训练,也可以使用预训练模型并固定权重。
    • temporal-base encoder:使用了 Longformer 结构,后文详细说。
    • classification MLP head:Longformer 的结果其实也是一个向量,最终需要通过FC进行分类。
      • 没啥好说的。

image-20210421152439319

  • Transformer 的输入要求是一个序列,每个元素是一个特征。
    • VTN 中,序列就是一组视频帧,每一帧通过 2D feature extractor 提取特征。
  • TimeFormer 本质就是对普通的普通 Transformer 的一些改进
    • 存在的问题:目前对长视频(或者说长序列)的处理很不符合常识,比较尴尬。
    • 目前处理长视频的方法:
      • 目前行为识别模型的主要抽帧策略是 dense strategry(短视频取多帧)或 uniform strategy(将长视频分为若干段,每一段提取一帧),两种方法都有很明显的短板。
      • 比如对一段时间内的视频切分为多个clip,每个clip分别分类,平均所有clip的预测结果。
      • 有些是对每个clip使用多个view(也可以理解为Crop),比如SlowFast中的10个clip*3个view
    • Transformer本来就是处理序列任务的,那么长序列任务有什么方法呢?之前NLP领域就提出了TimeFormer 的方法,其核心如下图所示
      • 普通Transformer有多个q/k/v,每个q要跟所有k计算相似度+softmax、与v相乘累加,如下图左一
      • 但随着序列长度增加,这个计算量太高了,所以每个q不是跟每个k计算相似度,而是跟部分k,具体选择哪些k就有下图的右边三张。

img

3. 效果如何

  • 简单贴一些结果

image-20210421171906325

4. 还存在什么问题&可借鉴之处

  • 其实这个方法我觉得不是特别惊艳,感觉就是CNN+LSTM算法把LSTM换成了Transformer。
  • 不过好歹也是纯Transformer的Video方向论文。
  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值