图像字幕生成论文阅读

最新推荐文章于 2024-09-27 03:56:42 发布

吉小开

最新推荐文章于 2024-09-27 03:56:42 发布

阅读量3k

点赞数

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_45773451/article/details/122116698

版权

文章题目、出处：

MAGIC: Multimodal relAtional Graph adversarIal inference for Diverse and Unpaired Text-based Image Captioning
论文地址：https://arxiv.org/pdf/2112.06558.pdf

目的：

打破单一和监督的图像字幕方法，进行无监督的图像字幕生成。

结论：

可以根据选定的中心对象自适应地构建多模态关系图。

背景：

基于文本的图像字幕(TextCap)需要同时理解视觉内容和图像中的文本，以生成自然语言的描述。基于文本的图像直观地包含了丰富而复杂的多模态关系内容，图像可以从多个视图而不是单个标题进行描述，大规模的配对数据注释不容易获得，需要花费大量的时间和精力。无监督/未配对方法能够将视觉学习为语言。

方法：

1、描述多样性
2、关系建模
3、未配对（无监督）学习
当人们对图像进行不同的描述时，他们更倾向于关注一些突出的区域，然后查询与上下文相关的内容部分，并解释他们之间的关系来描述。
在这里插入图片描述

1、 Multimodal Relational Graph Encoder
动态地选择中心对象作为中心对象感知池，然后自适应地构造它们的多关系图，以表示不同的细粒度内容。最后，gcn 建模模态内和交叉关系，学习多关系图嵌入。
多模态特征提取：faster RCNN、OCR
中心对象感知池：受到人类注意机制的启发，描述一个图像，通常集中于一个突出的对象或区域，然后从一到多查询其相关信息，忽略不关心的内容，组成细粒度的句子。通过softmax学习每个对象的权重。
多模态关系图嵌入：关系、属性、文本三种类型节点。

2、 Sentence Auto-Encoder
句子自动编码器，它通过句子的自重构来充分捕捉语言属性。构建句子场景图，通过句子解码器解码由潜在向量编码的句子。
3、 Unpaired Adversarial Caption Inference
跨域对齐和语言鉴别器