论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation(ICCV2021)

最新推荐文章于 2023-08-26 19:09:05 发布

糖豆豆今天也要努力鸭

最新推荐文章于 2023-08-26 19:09:05 发布

阅读量2k

点赞数

分类专栏：机器学习文章标签： scene graph 场景图 transformer 深度学习场景理解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40349484/article/details/121001800

版权

机器学习专栏收录该内容

37 篇文章 3 订阅

订阅专栏

前些日子作业多，就没看论文。组会上老师问我有没有用transformer做场景图的。我说没吧老师。然后师姐给我发了这篇。今天把这篇文章梳理完了，做个记录。

这篇文章是做动态场景图的，就是由视频生成场景图。我之前看的都是基于静态图片的，也就是静态场景图。论文作者设计了一个Transformer，捕捉到了单个帧内各谓语表示的空间信息和相邻帧的时序信息。为什么要利用好时序信息呢？对于视频而言，前一帧对后一帧是有启发作用的，作者认为如果前一帧是人-holding-杯子这样的关系，那么很容易就能猜到后一帧是人-drinking from-杯子这样的关系。

老规矩先上pipeline。
在这里插入图片描述
（1）目标检测网络，作者用的是FasterRCNN，backbone使用了ResNet101

（2）生成谓语表示
在这里插入图片描述
t：第t帧，k：第k个谓词
i ,j：谓词关联到的两个物体，第i个和第j个
v：目标检测网络提取的视觉特征
uij：i，j两个物体的union box经过ROIAlign的特征
fbox：把物体i的bbox和物体j的bbox转换成特征，并且和uij维度相同
φ：展平
s：物体类别的语义嵌入信息
在这里插入图片描述
也就是说谓语表示融合了视觉特征、存在联系的主宾对的空间信息，和主宾对所属物体类别的语义信息。

（3）Spatial Encoder

t：第t帧；n：第n个注意力层，前一层的输出是后一层的输入。这样，单个帧内的每个谓语表示都融合了全局的信息（虽然作者把这个叫做空间编码器，但我觉得也有全局的语义信息和视觉特征信息）

（4）Frame Encoding
帧编码。因为后面要利用相邻帧的信息，为了区分不同的帧，对每个帧进行编码，每个帧的编码结果不同。这一步注入了时序信息。

（5）Temporal Decoding
这一步是我觉得最重要的部分。时序解码这里利用的是相邻帧的信息，也就是真正地利用了时序信息。

这里的Q和K是相同的。Ef就是帧编码，Zi是滑动窗口η在所有帧上滑动的结果，如果η=2，那么就是帧1帧2进行解码；帧2帧3解码；帧3帧4解码这样。

（6）谓语分类解码结果→谓语种类的概率分布

（7）loss function
谓语分类损失用的是多标签损失，对于预测正确的谓语，尽可能增大它的置信度，对于预测错误的谓语，尽可能减小它的置信度。
在这里插入图片描述
总损失 = 谓语分类损失+目标分类损失

糖豆豆今天也要努力鸭

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation(ICCV2021)

前些日子作业多，就没看论文。组会上老师问我有没有用transformer做场景图的。我说没吧老师。然后师姐给我发了这篇。今天把这篇文章梳理完了，做个记录。这篇文章是做动态场景图的，就是由视频生成场景图。我之前看的都是基于静态图片的，也就是静态场景图。论文作者设计了一个Transformer，捕捉到了单个帧内各谓语表示的空间信息和相邻帧的时序信息。为什么要利用好时序信息呢？对于视频而言，前一帧对后一帧是有启发作用的，作者认为如果前一帧是人-holding-杯子这样的关系，那么很容易就能猜到后一帧是人-dri
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。