场景图生成论文阅读笔记 之 Neural Motifs

CVPR2018

《Neural Motifs: Scene Graph Parsing with Global Context》

针对问题

① 很多前人的工作是local prediction,未利用上下文信息(这一点与IMP针对的问题相同)
② 作者分析了VG数据集,发现具有很大的长尾效应(关系检测数据集的通病),并且很多关系类别与 主语宾语的类别有很大关系,其他方法没有利用这个先验知识

问题分析

VG数据集中91.3%的关系类别都是 空间关系(on, under等等)或所有关系(has,own等等);相对来说更高一层的语义关系仅占了8.7%(feeding, look之类的),并且这8.7%中的32.2%都是using或者holding
在这里插入图片描述

然后作者就做了上图右侧的实验: 可以看出,给出主语(head)和宾语(tail)的类别后(没有任何图片特征,只有类别信息)能够很好地预测出relation(edge),top5时达到了97%的精度

Motifs概念

文中将 关系对(subject-relation-object)中任意两个的类别组成称为motif(比如说 人-骑-马,中 人-骑 就是一个motif),作者发现数据集中有50%的图片中都至少有motif length = 2的motif。
Motif length就是一张图片中 这个motif出现的次数(比如一张图中出现了 人-骑-马, 人-骑-骆驼,此时 人-骑 这一 motif的长度就是2)。总的来说就是,图片中关系对与关系对之间也存在关系,例如出现了 人-骑-马,那就会有很大概率会再出现 人-骑-* 的关系对。

在这里插入图片描述

文章创新

既然类别信息对预测relation有帮助,那就在预测relation之前先预测出主宾语的类别,把类别信息添加到预测relation中
③ 利用了关系对与关系对之间的关系:motif


网络模型

网络主要基于双向LSTM实现:
首先提取出proposal box,依次将proposal输入到双向LSTM(object context)中,生成特征c,一方面将c输入到一个LSTM预测类别label,另一方面将c输入到edge context中;
将预测得到的label的编码也和 c 以及 主宾语的union区域特征(两者的上下文信息) 一起输入到edge context中预测relation

  • 这里对应于创新点①的实现:添加了类别信息
  • 但是motif 的关系是怎么实现的?
    另一篇博客这里说是后续输入到全连接层时不同的目标对使用不同的权重 来实现增加motif信息,后续看了代码再回来解答

在这里插入图片描述

实验结果

FREQ是不加上下文信息,不用图片特征的预测结果(直接根据主谓语的类别信息预测关系,相当于根据数据集的经验分布来推断),这个结果比之前的Message Passing都高了很多。。。
在这里插入图片描述

因为需要逐一输入proposal box,所以作者也做了输入顺序的实验,分别按照从左到右,置信度,大小,随机输入,最终选用了从左到右,其实都差不多。

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值