场景图生成论文阅读笔记之 Neural Motifs

最新推荐文章于 2024-06-23 19:48:52 发布

流觞时光

最新推荐文章于 2024-06-23 19:48:52 发布

阅读量2.1k

点赞数 5

分类专栏：论文阅读笔记文章标签：人工智能算法场景图生成计算机视觉

本文链接：https://blog.csdn.net/qq_38574198/article/details/118609984

版权

论文阅读笔记专栏收录该内容

18 篇文章 8 订阅

订阅专栏

CVPR2018

《Neural Motifs: Scene Graph Parsing with Global Context》

文章目录

- - 《Neural Motifs: Scene Graph Parsing with Global Context》

针对问题

① 很多前人的工作是local prediction，未利用上下文信息（这一点与IMP针对的问题相同）
② 作者分析了VG数据集，发现具有很大的长尾效应（关系检测数据集的通病），并且很多关系类别与主语宾语的类别有很大关系，其他方法没有利用这个先验知识

问题分析

VG数据集中91.3%的关系类别都是空间关系（on, under等等）或所有关系（has，own等等）；相对来说更高一层的语义关系仅占了8.7%（feeding, look之类的），并且这8.7%中的32.2%都是using或者holding
在这里插入图片描述

然后作者就做了上图右侧的实验: 可以看出，给出主语(head)和宾语(tail)的类别后(没有任何图片特征，只有类别信息)能够很好地预测出relation(edge)，top5时达到了97%的精度

Motifs概念

文中将关系对（subject-relation-object）中任意两个的类别组成称为motif（比如说人-骑-马，中人-骑就是一个motif），作者发现数据集中有50%的图片中都至少有motif length = 2的motif。
Motif length就是一张图片中这个motif出现的次数（比如一张图中出现了人-骑-马，人-骑-骆驼，此时人-骑这一 motif的长度就是2）。总的来说就是，图片中关系对与关系对之间也存在关系，例如出现了人-骑-马，那就会有很大概率会再出现人-骑-* 的关系对。

在这里插入图片描述

文章创新

① 既然类别信息对预测relation有帮助，那就在预测relation之前先预测出主宾语的类别，把类别信息添加到预测relation中
③ 利用了关系对与关系对之间的关系：motif

网络模型

网络主要基于双向LSTM实现：
首先提取出proposal box，依次将proposal输入到双向LSTM（object context）中，生成特征c，一方面将c输入到一个LSTM预测类别label，另一方面将c输入到edge context中；
将预测得到的label的编码也和 c 以及 主宾语的union区域特征（两者的上下文信息） 一起输入到edge context中预测relation