ICCV 2021 | STTran:用于视频场景图生成的时空上下文Transformer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

本文作者:Cong Yuren |  来源:知乎(已授权)

https://zhuanlan.zhihu.com/p/393637591

自己的文章Spatial-Temporal Transformer for Dynamic Scene Graph Generation 有幸被ICCV2021收录。

论文:https://arxiv.org/abs/2107.12309

Motivation

目前对场景理解 (scene understanding) 的研究正在从图像转移到更有挑战性的视频上。尽管已有不少工作针对action recognition和action localization,但目前对于逐帧的关系检测/场景图生成还属于空白。在这篇文章中我们提出了一种可以利用时空上下文的Transformer (STTran: Spatial-Temporal Transformer)来生成动态场景图 (Dynamic Scene Graph).

相比于基于图片的场景图生成 (image-based scene graph generation), 在生成给定视频的动态场景图时我们不仅可以利用单个帧的视觉,空间和语义信息,还可以利用时间上下文更准确地推测出该帧中出现的关系。例如下图中,尽管语义上person-touching-food并不能算错,但是结合前一帧的信息,person-eating-food才是更准确的动作关系。

我们的主要贡献是:

(1) 提出了一个基于Transformer结构,可以结合空间和时间上下文的动态场景图生成模型。

(2) 不同于主流的基于图片的场景图生成,我们对关系预测进行了multi-label classification,并提出了一个相应的evaluation metrics。

(3)通过实验证明了我们提出的模型可以很好地利用时间上下文 (temporal context) 来改善关系检测。

Approach

Spatial-Temporal Transformer (STTran)包含两个部分,spatial encoder和temporal decoder。其中spatial encoder负责处理单个帧中不同relationship的空间上下文,而在temporal decoder中不同帧之间的relationship可以共享信息并获取时间上下文。

Framework of Spatial-Temporal Transformer

我们利用对应的视觉信息 (visual vector), 主宾物体的空间信息 (bounding boxes坐标等)和语义信息来表征每个帧中的单独的relationship。同一帧中的所有relationships会作为一个batch被输入进spatial encoder,其中的self-attention module会对其进行处理。self-attention module的query和key即是原输入,因为relationship representation本身含有空间信息,且每个relationship之间并无先后顺序,所以我们在这里没有加任何encoding。在这点上,self-attention具有比RNN (比如Neural Motifs使用的LSTM)更强的解释性。然后我们通过sliding window对相邻帧采样,并将来自多个帧的relationships组成一个batch作为temporal decoder的输入。在temporal decoder中我们在query和key上加上一个训练得到的frame encoding用以区分来自不同帧的relationships,来自相同帧的relationships共享相同的encoding。不同于传统的Transformer结构,由于不需要cross attention我们仅在decoder中保留一个multihead attention module。

在现实中,同一个关系在语义上不是唯一的,在数据集中也存在很多object pairs被多个同义谓语标注 (例如person-holding-broom/person-touching-broom)。我们引入Multi-label margin loss作为谓语分类的损失函数:

Experiments

实验所用的数据集是李飞飞组2019年出的Action Genome。在时空上下文的帮助下STTran在场景图生成的三个setting中都优于基于图像的SOTA方法:

其中With Constraint是指每一个subject-object pair之间只允许输出一个谓语,这种限制会过滤掉一些正确的同义词。No Constraint则是无限制预测,选取置信分数高的谓语进入recall list,这会导致输出中会存在很多错误预测尽管得到的recall分数较高。考虑到这些缺点我们提出了一种新的基于阈值的场景图生成方法,即只有预测的谓语置信分数高过所设阈值,才会允许其进入recall list,结果如下:

更多的实验内容和分析请看我们的论文。

Conclusion

STTran结构简洁清晰,是一个很有潜力的视频处理框架,不仅可以应用在生成动态场景图上,还可以推广到其他需要处理单个帧中多个目标/特征的视频任务中,比如多人视频中的action recognition,多物体追踪(MOT)等等。

PS: 相关代码整理好后将会放在github上。

CVPR和ICCV 2021论文和代码下载

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF

CVer-Transformer交流群成立

扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
时空Transformer是一种基于Transformer架构,用于视频理解和场景理解的方法。它是第一个完全基于Transformer视频架构,已经在自然语言处理应用程序中得到广泛应用,如机器翻译和通用语言理解。它利用时空上下文生成动态场景,可以提高视频理解的准确性和效率。与传统的3D CNN相比,时空Transformer在训练速度上有更高的效率,提速了3倍,并且具有更高的视频剪辑上限,可以处理几分钟的视频剪辑。这使得时空Transformer成为视频理解领域的重要研究方向,具有更高的性能和更低的成本。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [本周AI热点回顾:「时空版」Transformer训练速度远超3D CNN;拒绝内卷的AI狼火了!不想抓羊只想躺!...](https://blog.csdn.net/PaddlePaddle/article/details/115059506)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* [ICCV 2021 | STTran用于视频场景生成时空上下文Transformer](https://blog.csdn.net/amusi1994/article/details/119225470)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值