论文浏览(40) Video Action Transformer Network


0. 前言


1. 要解决什么问题

  • 就是想把 Transformer 的思路引入时空行为检测中。
  • 判断人的行为之所以困难,有一步分原因在于行为类别需要依赖于目标人物周边的人或物。

2. 用了什么方法

  • 本文提出的结构如下图所示
    • image_1ehos283t17831c8b11ip11r11ll49.png-249.5kB
  • 网络结构主要分为两个部分
    • Trunk:即特征提取,输入64帧图像,使用在Kinetics-400上预训练的I3D模型作为backbone提取特征。
    • Tail(这个名称是上面源码中给出的),主要就是以Trunk中的特征作为输入:
      • 取Trunk的输出特征作为RPN输入,构建proposals。
        • 从源码看,好像RPN的输入不是中间帧,而是Trunk的输出。
      • 对RPN生成的每个proposal执行Tx Head中的操作。
        • 由三个Tx Head组成。
        • 每个Tx Head的结构如上图中的 Tx Unit 所示。
      • 为什么上图右上方绿色框中有6个Tx?
        • 我不太清楚,猜测是每个Tx其实有两个输入,即下图中的RoIPool这一路,以及Key-Value这一路。
        • 猜测是3组
  • QPr有两种实现方式
    • HighRes:high resolution,通过卷积实现,最终得到128维向量。
    • LowRes:直接通过 spatially avg pool 实现。
  • Tx Unit
    • 整体输入数据是RoIPool的结果。
    • q路输入是RoIPool后中间帧的特征。
    • key-value路输入是RoIPool后的特征。
    • FFN是普通的多层感知机。
  • 如何理解 Tx Unit 结构使用了人周围信息(context information)?
    • 对比I3D Header(这个结构没有使用到context信息)image_1ehp5o5mg1go8124j5minuf1ipom.png-54kB
    • I3D Head与Tx Head的区别:
      • I3D最终提取的特征是基于原始特征图的ST-RoiPool的结果。
      • Tx Head提取的特征,是在RoIPool的基础上,添加了Transform结构,能够提取更多context信息。
      • 可以认为,I3D的context信息虽然有,但不多。Tx Head是在I3D Head的基础上通过Transform结构提取更多context信息。

3. 效果如何

  • 在拥有gt person bboxes的情况下:
    • image_1ehqtc26r1if8o0kfki1q9atg9.png-82.6kB
  • 与SOTA对比
    • image_1ehqusu5r10dlnpl12jk15jmlpp9.png-143.8kB

4. 还存在什么问题&有什么可以借鉴

  • 这个其实还挺想尝试一下的,不过没有源码,有机会可以复现一下。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页