Exploring Visual Relationship for Image Captioning论文笔记

最新推荐文章于 2024-07-10 20:03:11 发布

小有名气的可爱鬼

最新推荐文章于 2024-07-10 20:03:11 发布

阅读量1.1k

点赞数 2

分类专栏： VQA 文章标签： Graph Convolutional Networks Visual Relationship LSTM Image Caption

本文链接：https://blog.csdn.net/weixin_42305378/article/details/102790811

版权

本文深入探讨了如何利用视觉关系进行图像描述，提出了一种GCN-LSTM架构，结合语义和空间对象关系。模型通过构建关系图并用GCN进行上下文编码，增强区域特征，注入到attention LSTM中生成句子。在COCO数据集上，该方法取得了优于现有技术的结果，尤其是在CIDER-D指标上表现突出。

摘要由CSDN通过智能技术生成

最近看了这篇论文，写了些心得体会，仅代表个人看法，如有不对还请多多指教！

本文提出了一种新的设计方案，在基于注意的编解码框架下，探讨图像描述对象之间的联系。具体来说，我们提出了图形卷积网络和长期短期内存(称为gcn-lstm)架构，这种新颖的方法将语义和空间对象关系整合到图像编码器中。从技术上讲，我们根据图像中检测到的对象的空间和语义联系来构建关系图形。然后，通过GCN利用图形结构，对每个区域的表示进行细化，得到区域级关系感知特征，然后将其注入到attention lstm中生成句子。

在COCO图像描述数据集上进行了广泛的实验，当与最先进的方法相比时，报告了更好的结果. 更值得注意的是，GCN-LS TM在COCO测试集上将CIDER-D性能从120.1%提高到128.7%

在这里插入图片描述如图(A)和(B)是典型的图片描述的卷积神经网络模型，一个尚未充分研究的共同问题是如何利用视觉关系进行图片描述，因为对象之间的相互关联或相互作用是描述图像的自然基础。
所以就有了图（c）我们的GCN+LSTM模型进行图片描述。

什么是视觉关系

视觉关系描述了图像中检测到的对象之间的交互或相对位置。视觉关系的检测不仅涉及到对象的定位和识别，还涉及对每对对象之间的交互（谓词）进行分类。这种关系可以表示为主语-谓词-目标，例如（man-eating-sandwich）or（dog-inside-car）

这篇论文提出了一种新的模型，是GCN+LSTM的结构，整合了语义信息和空间位置信息到图像编码器

论文的重点在于语义关系和位置关系的提取

模型的整体结构

在这里插入图片描述首先是用Faster R-CNN来提取一系列图像中突出的图像区域。然后利用提取出来的图像区域进行构建空间图和语义图。顶点表示区域，边表示区域之间的语义关系或是空间关系。然后用GCN 在结构化的语义和空间图上的视觉关系进行上下文编码。然后得到这些学习后区域级别的关系感知的特征，然后分别送入一个独立的attention LSTM解码器用于句子生成。在推理阶段，是采用后期融合方案来线性融合两个解码器的结果。

Semantic Object Relationship

语义关系可以用 subject-predicate-object 表示
语义关系是有方向性的，通过谓词将主体和客体相关联，谓词可是对象间的交互或动作
在这里插入图片描述 其实这个就是视觉关系分类器

最低0.47元/天解锁文章

小有名气的可爱鬼

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Exploring Visual Relationship for Image Captioning论文笔记

本文提出了一种新的设计方案，在基于注意的编解码框架下，探讨图像描述对象之间的联系。具体来说，我们提出了图形卷积网络和长期短期内存(称为gcn-lstm)架构，这种新颖的方法将语义和空间对象关系整合到图像编码器中。从技术上讲，我们根据图像中检测到的对象的空间和语义联系来构建关系图形。然后，通过GCN利用图形结构，对每个区域的表示进行细化，得到区域级关系感知特征，然后将其注入到attention lstm中生成句子。
复制链接

扫一扫

专栏目录