点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
本文作者:Cong Yuren | 来源:知乎(已授权)
https://zhuanlan.zhihu.com/p/393637591
自己的文章Spatial-Temporal Transformer for Dynamic Scene Graph Generation 有幸被ICCV2021收录。

Motivation
目前对场景理解 (scene understanding) 的研究正在从图像转移到更有挑战性的视频上。尽管已有不少工作针对action recognition和action localization,但目前对于逐帧的关系检测/场景图生成还属于空白。在这篇文章中我们提出了一种可以利用时空上下文的Transformer (STTran: Spatial-Temporal Transformer)来生成动态场景图 (Dynamic Scene Graph).
相比于基于图片的场景图生成 (image-based scene graph generation), 在生成给定视频的动态场景图时我们不仅可以利用单个帧的视觉,空间和语义信息,还可以利用时间上下文更准确地推测出该帧中出现的关系。例如下图中,尽管语义上person-touching-food并不能算错,但是结合前一帧的信息,person-eating-food才是更准确的动作关系。

我们的主要贡献是:
(1) 提出了一个基于Transformer结构,可以结合空间和时间上下文的动态场景图生成模型。
(2) 不同于主流的基于图片的场景图生成,我们对关系预测进行了multi-label classification,并提出了一个相应的evaluation metrics。
(3)通过实验证明了我们提出的模型可以很好地利用时间上下文 (temporal context) 来改善关系检测。
Approach
Spatial-Temporal Transformer (STTran)包含两个部分,spatial encoder和temporal decoder。其中spatial encoder负责处理单个帧中不同relationship的空间上下文,而在temporal decoder中不同帧之间的relationship可以共享信息并获取时间上下文。

我们利用对应的视觉信息 (visual vector), 主宾物体的空间信息 (bounding boxes坐标等)和语义信息来表征每个帧中的单独的relationship。同一帧中的所有relationships会作为一个batch被输入进spatial encoder,其中的self-attention module会对其进行处理。self-attention module的query和key即是原输入,因为relationship representation本身含有空间信息,且每个relationship之间并无先后顺序,所以我们在这里没有加任何encoding。在这点上,self-attention具有比RNN (比如Neural Motifs使用的LSTM)更强的解释性。然后我们通过sliding window对相邻帧采样,并将来自多个帧的relationships组成一个batch作为temporal decoder的输入。在temporal decoder中我们在query和key上加上一个训练得到的frame encoding用以区分来自不同帧的relationships,来自相同帧的relationships共享相同的encoding。不同于传统的Transformer结构,由于不需要cross attention我们仅在decoder中保留一个multihead attention module。
在现实中,同一个关系在语义上不是唯一的,在数据集中也存在很多object pairs被多个同义谓语标注 (例如person-holding-broom/person-touching-broom)。我们引入Multi-label margin loss作为谓语分类的损失函数:
Experiments
实验所用的数据集是李飞飞组2019年出的Action Genome。在时空上下文的帮助下STTran在场景图生成的三个setting中都优于基于图像的SOTA方法:

其中With Constraint是指每一个subject-object pair之间只允许输出一个谓语,这种限制会过滤掉一些正确的同义词。No Constraint则是无限制预测,选取置信分数高的谓语进入recall list,这会导致输出中会存在很多错误预测尽管得到的recall分数较高。考虑到这些缺点我们提出了一种新的基于阈值的场景图生成方法,即只有预测的谓语置信分数高过所设阈值,才会允许其进入recall list,结果如下:

更多的实验内容和分析请看我们的论文。
Conclusion
STTran结构简洁清晰,是一个很有潜力的视频处理框架,不仅可以应用在生成动态场景图上,还可以推广到其他需要处理单个帧中多个目标/特征的视频任务中,比如多人视频中的action recognition,多物体追踪(MOT)等等。
PS: 相关代码整理好后将会放在github上。
CVPR和ICCV 2021论文和代码下载
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看