Exploring Visual Relationship for Image Captioning论文笔记

本文深入探讨了如何利用视觉关系进行图像描述,提出了一种GCN-LSTM架构,结合语义和空间对象关系。模型通过构建关系图并用GCN进行上下文编码,增强区域特征,注入到attention LSTM中生成句子。在COCO数据集上,该方法取得了优于现有技术的结果,尤其是在CIDER-D指标上表现突出。
摘要由CSDN通过智能技术生成

最近看了这篇论文, 写了些心得体会,仅代表个人看法,如有不对还请多多指教!

本文提出了一种新的设计方案,在基于注意的编解码框架下,探讨图像描述对象之间的联系。具体来说,我们提出了图形卷积网络和长期短期内存(称为gcn-lstm)架构,这种新颖的方法将语义和空间对象关系整合到图像编码器中。从技术上讲,我们根据图像中检测到的对象的空间和语义联系来构建关系图形。然后,通过GCN利用图形结构,对每个区域的表示进行细化,得到区域级关系感知特征,然后将其注入到attention lstm中生成句子。

在COCO图像描述数据集上进行了广泛的实验,当与最先进的方法相比时,报告了更好的结果. 更值得注意的是,GCN-LS TM在COCO测试集上将CIDER-D性能从120.1%提高到128.7%

在这里插入图片描述如图(A)和(B)是典型的图片描述的卷积神经网络模型,一个尚未充分研究的共同问题是如何利用视觉关系进行图片描述,因为对象之间的相互关联或相互作用是描述图像的自然基础。
所以就有了图(c)我们的GCN+LSTM模型进行图片描述。

什么是视觉关系

视觉关系描述了图像中检测到的对象之间的交互或相对位置。视觉关系的检测不仅涉及到对象的定位和识别,还涉及对每对对象之间的交互(谓词)进行分类。这种关系可以表示为主语-谓词-目标,例如(man-eating-sandwich)or(dog-inside-car)

这篇论文提出了一种新的模型,是GCN+LSTM的结构,整合了语义信息和空间位置信息到图像编码器

论文的重点在于语义关系和位置关系的提取

模型的整体结构

在这里插入图片描述首先是用Faster R-CNN来提取一系列图像中突出的图像区域。然后利用提取出来的图像区域进行构建空间图和语义图。顶点表示区域,边表示区域之间的语义关系或是空间关系。然后用GCN 在结构化的语义和空间图上的视觉关系进行上下文编码。然后得到这些学习后区域级别的关系感知的特征,然后分别送入一个独立的attention LSTM解码器用于句子生成。在推理阶段,是采用后期融合方案来线性融合两个解码器的结果。

Semantic Object Relationship

语义关系可以用 subject-predicate-object 表示
语义关系是有方向性的,通过谓词将主体和客体相关联,谓词可是对象间的交互或动作
在这里插入图片描述其实这个就是视觉关系分类器

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值