ICCV 2021 | STTran：用于视频场景图生成的时空上下文Transformer-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文作者：Cong Yuren | 来源：知乎（已授权）

https://zhuanlan.zhihu.com/p/393637591

自己的文章Spatial-Temporal Transformer for Dynamic Scene Graph Generation 有幸被ICCV2021收录。

论文：https://arxiv.org/abs/2107.12309

Motivation

目前对场景理解 (scene understanding) 的研究正在从图像转移到更有挑战性的视频上。尽管已有不少工作针对action recognition和action localization，但目前对于逐帧的关系检测/场景图生成还属于空白。在这篇文章中我们提出了一种可以利用时空上下文的Transformer (STTran: Spatial-Temporal Transformer)来生成动态场景图 (Dynamic Scene Graph).

相比于基于图片的场景图生成 (image-based scene graph generation), 在生成给定视频的动态场景图时我们不仅可以利用单个帧的视觉，空间和语义信息，还可以利用时间上下文更准确地推测出该帧中出现的关系。例如下图中，尽管语义上person-touching-food并不能算错，但是结合前一帧的信息，person-eating-food才是更准确的动作关系。

我们的主要贡献是:

(1) 提出了一个基于Transformer结构，可以结合空间和时间上下文的动态场景图生成模型。

(2) 不同于主流的基于图片的场景图生成，我们对关系预测进行了multi-label classification，并提出了一个相应的evaluation metrics。

(3)通过实验证明了我们提出的模型可以很好地利用时间上下文 (temporal context) 来改善关系检测。

Approach

Spatial-Temporal Transformer (STTran)包含两个部分，spatial encoder和temporal decoder。其中spatial encoder负责处理单个帧中不同relationship的空间上下文，而在temporal decoder中不同帧之间的relationship可以共享信息并获取时间上下文。

Framework of Spatial-Temporal Transformer

我们利用对应的视觉信息 (visual vector), 主宾物体的空间信息 (bounding boxes坐标等)和语义信息来表征每个帧中的单独的relationship。同一帧中的所有relationships会作为一个batch被输入进spatial encoder，其中的self-attention module会对其进行处理。self-attention module的query和key即是原输入，因为relationship representation本身含有空间信息，且每个relationship之间并无先后顺序，所以我们在这里没有加任何encoding。在这点上，self-attention具有比RNN (比如Neural Motifs使用的LSTM)更强的解释性。然后我们通过sliding window对相邻帧采样，并将来自多个帧的relationships组成一个batch作为temporal decoder的输入。在temporal decoder中我们在query和key上加上一个训练得到的frame encoding用以区分来自不同帧的relationships，来自相同帧的relationships共享相同的encoding。不同于传统的Transformer结构，由于不需要cross attention我们仅在decoder中保留一个multihead attention module。

在现实中，同一个关系在语义上不是唯一的，在数据集中也存在很多object pairs被多个同义谓语标注 (例如person-holding-broom/person-touching-broom)。我们引入Multi-label margin loss作为谓语分类的损失函数:

Experiments

实验所用的数据集是李飞飞组2019年出的Action Genome。在时空上下文的帮助下STTran在场景图生成的三个setting中都优于基于图像的SOTA方法:

其中With Constraint是指每一个subject-object pair之间只允许输出一个谓语，这种限制会过滤掉一些正确的同义词。No Constraint则是无限制预测，选取置信分数高的谓语进入recall list，这会导致输出中会存在很多错误预测尽管得到的recall分数较高。考虑到这些缺点我们提出了一种新的基于阈值的场景图生成方法，即只有预测的谓语置信分数高过所设阈值，才会允许其进入recall list，结果如下:

更多的实验内容和分析请看我们的论文。

Conclusion

STTran结构简洁清晰，是一个很有潜力的视频处理框架，不仅可以应用在生成动态场景图上，还可以推广到其他需要处理单个帧中多个目标/特征的视频任务中，比如多人视频中的action recognition，多物体追踪(MOT)等等。

PS: 相关代码整理好后将会放在github上。

CVPR和ICCV 2021论文和代码下载

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

CVer-Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群