论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation

最新推荐文章于 2024-06-05 09:42:55 发布

娃娃亲�

最新推荐文章于 2024-06-05 09:42:55 发布

阅读量3.6k

点赞数 4

文章标签： transformer 深度学习人工智能视频处理

本文链接：https://blog.csdn.net/wawaqing2333/article/details/121799349

版权

Spatial-Temporal Transformer for Dynamic Scene Graph Generation

论文地址：https://arxiv.org/abs/2107.12309
github地址：https://github.com/yrcong/sttran
STTran是一种可以利用时空上下文的Transformer (STTran: Spatial-Temporal Transformer)来生成动态场景图 (Dynamic Scene Graph).

主要贡献

提出了用于动态场景图生成的时空转换器STTran，其编码器提取帧内的空间上下文，解码器捕获帧之间的时间依赖关系。
利用多标签损失引入一种新的生成场景图的策略：semi-constraint。
通过实验证明了STTran可以很好地利用时间上下文 (temporal context) 来改善关系检测。

研究背景

从视频生成动态场景图（Dynamic scene graph）比从图像生成场景图更具挑战性，因为目标之间的动态关系和帧之间的时间依赖性允许更丰富的语义解释。
如图显示了图像和视频生成场景图的不同：

相比于基于图片的场景图生成,在生成给定视频的动态场景图时不仅可以利用单个帧的视觉，空间和语义信息，还可以利用时间上下文准确地推测出该帧中出现的关系。例如下图中，尽管语义上person-touching-food并不能算错，但是结合前一帧的信息，person-eating-food才是更准确的动作关系。

主要实现

如图是STTran的架构示意图，其中目标检测主干在 RGB 视频帧中提议目标区域，并对关系特征向量（relationship feature vectors）进行预处理。时空变换器STTran的编码器，先提取单帧的空间上下文。由来自不同帧的编码器组所修正的关系表示（relation representations），组合在一起添加到学习的帧编码（frame encodings）中。解码器层捕获时间依赖性，并用线性分类器为不同关系类（例如注意力、空间、上下文）预测关系，图中FFN 表示前馈网络（feed-forward network）。

具体实现

转换器

首先回顾一下转换器的概念。转换器由Vaswani在《Attention is All You Need》中提出。
不懂的可以跳转这里进行学习。

在每一层中，给定 $x$ 有 $N$ 个 $D$ 维的输入， $x\in {R^{N \times D}}$ ,通过线性变换获取查询向量（ $Q=X{W_Q},{W_Q} \in R^{D \times {D_q}}$ ）、键向量（ $K=X{W_K},{W_K} \in R^{D \times {D_k} }$ ）和值向量（ $V=X{W_V},{W_V} \in R^{D \times {D_v} }$ ）。
其自注意层的公式如下： $Attention(Q,K,V)=Softmax(\frac{Q{K}^T}{\sqrt{D_k}})V$ 其中除以 $\sqrt{D_k}$ 是为了让梯度更稳定，Softmax的作用是使所有输入归一化。
为了提高注意层的性能，采用多头注意力，其定义为： $MultiHead(Q,K,V)=Concat(h_1,...h_h)W_o,h_i=Attention(X{W_{Q_i}},X{W_{K_i}},X{W_{V_i}})$

最低0.47元/天解锁文章

娃娃亲�

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation

论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation论文地址：https://arxiv.org/abs/2107.12309github地址：https://github.com/yrcong/sttranSSTran是一种可以利用时空上下文的Transformer (STTran: Spatial-Temporal Transformer)来生成动态场景图 (Dynamic Scene Graph).主要贡献
复制链接

扫一扫