场景图生成论文阅读笔记 之 Visual Relation Detection with Multi-Level Atention

Visual Relation Detection with Multi-Level Atention
2019 ACM MM

Visual Relation Detection with Multi-Level Atention
2019 ACM MM

针对问题

  • 大多数工作直接使用Union Box区域作为谓词的视觉特征,这样会1)引入无关的背景信息。2)忽视了目标周围的上下文信息
  • 因为视觉特征、位置信息、语义信息(类别)都对关系的预测有贡献,大多数工作直接将三个线索直接拼接在一起,但是不同场景下不同线索的贡献是不同的,例如“on”更依赖于位置特征,而“ride”更依赖于视觉线索和语义线索。

论文贡献/创新点

  • 采用多阶段视觉注意力机制(空间注意力+通道注意力)获取显著的交互区域代替直接使用Union Box
  • 设计了多线索注意力来分别计算各线索的权重来结合三个线索

论文内容

1、 多阶段视觉注意力

这一部分可以分为两部分:通道注意力与空间注意力。
1) 通道注意力应用在backbone的每个卷积块后,其机制原理就与普通的通道注意力相同,对特征(c,w,h)的每个通道求均值后再将得到的向量(c,1,1)投入全连接层计算各个通道的权重,而后对各通道进行加权。
2) 同样的,空间注意力也是简单添加了普通的注意力机制,这里文中将主宾的目标类别进行编码后作为注意力里的query,最终得到显著的交互区域(下面结构图中的黄色框部分)
在这里插入图片描述

2、 多线索注意力机制

共有三个线索:视觉线索、语义线索、位置线索。
需要首先对这些线索进行编码,视觉特征通过上面的多阶段视觉注意力得到,然后需要对空间线索、语义线索分别进行编码,而后再计算权重
论文中计算权重的方式如下:
在这里插入图片描述

对于每个线索的特征向量都使用上式计算权重

有一说一,没太理解这个公式,其中Wg和attention矩阵Gi的作用是什么,Gi是如何得到的

为了减少参数量,作者还对Gi应用了矩阵分解
对三个线索进行加权得到最终的结果:
在这里插入图片描述

实验

作者在VG150, VRD, VG200这三个数据集上都做了实验,结果如下:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值