论文浏览(40) Video Action Transformer Network

最新推荐文章于 2024-06-17 09:50:50 发布

清欢守护者

最新推荐文章于 2024-06-17 09:50:50 发布

阅读量838

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/108509734

版权

CV 专栏收录该内容

98 篇文章 21 订阅

订阅专栏

文章目录

0. 前言

相关资料：
- arxiv
- github（非官方代码，只有结构没有结果）
- 论文解读
- 项目网站
论文基本信息
- 领域：时空行为检测
- 作者单位：卡耐基梅隆大学 & DeepMind
- 发表时间：CVPR 2019

1. 要解决什么问题

就是想把 Transformer 的思路引入时空行为检测中。
判断人的行为之所以困难，有一步分原因在于行为类别需要依赖于目标人物周边的人或物。

2. 用了什么方法

本文提出的结构如下图所示
网络结构主要分为两个部分
- Trunk：即特征提取，输入64帧图像，使用在Kinetics-400上预训练的I3D模型作为backbone提取特征。
- Tail(这个名称是上面源码中给出的)，主要就是以Trunk中的特征作为输入：
  - 取Trunk的输出特征作为RPN输入，构建proposals。
    - 从源码看，好像RPN的输入不是中间帧，而是Trunk的输出。
  - 对RPN生成的每个proposal执行Tx Head中的操作。
    - 由三个Tx Head组成。
    - 每个Tx Head的结构如上图中的 Tx Unit 所示。
  - 为什么上图右上方绿色框中有6个Tx？
    - 我不太清楚，猜测是每个Tx其实有两个输入，即下图中的RoIPool这一路，以及Key-Value这一路。
    - 猜测是3组
QPr有两种实现方式
- HighRes：high resolution，通过卷积实现，最终得到128维向量。
- LowRes：直接通过 spatially avg pool 实现。
Tx Unit
- 整体输入数据是RoIPool的结果。
- q路输入是RoIPool后中间帧的特征。
- key-value路输入是RoIPool后的特征。
- FFN是普通的多层感知机。
如何理解 Tx Unit 结构使用了人周围信息（context information）?
- 对比I3D Header（这个结构没有使用到context信息）
- I3D Head与Tx Head的区别：
  - I3D最终提取的特征是基于原始特征图的ST-RoiPool的结果。
  - Tx Head提取的特征，是在RoIPool的基础上，添加了Transform结构，能够提取更多context信息。
  - 可以认为，I3D的context信息虽然有，但不多。Tx Head是在I3D Head的基础上通过Transform结构提取更多context信息。