图像字幕生成论文阅读

文章题目、出处:

MAGIC: Multimodal relAtional Graph adversarIal inference for Diverse and Unpaired Text-based Image Captioning
论文地址:https://arxiv.org/pdf/2112.06558.pdf

目的:

打破单一和监督的图像字幕方法,进行无监督的图像字幕生成。

结论:

可以根据选定的中心对象自适应地构建多模态关系图。

背景:

基于文本的图像字幕(TextCap)需要同时理解视觉内容和图像中的文本,以生成自然语言的描述。基于文本的图像直观地包含了丰富而复杂的多模态关系内容,图像可以从多个视图而不是单个标题进行描述,大规模的配对数据注释不容易获得,需要花费大量的时间和精力。无监督/未配对方法能够将视觉学习为语言。

方法:

1、 描述多样性
2、 关系建模
3、 未配对(无监督)学习
当人们对图像进行不同的描述时,他们更倾向于关注一些突出的区域,然后查询与上下文相关的内容部分,并解释他们之间的关系来描述。
在这里插入图片描述

1、 Multimodal Relational Graph Encoder
动态地选择中心对象作为中心对象感知池,然后自适应地构造它们的多关系图,以表示不同的细粒度内容。最后,gcn 建模模态内和交叉关系,学习多关系图嵌入。
多模态特征提取:faster RCNN、OCR
中心对象感知池:受到人类注意机制的启发,描述一个图像,通常集中于一个突出的对象或区域,然后从一到多查询其相关信息,忽略不关心的内容,组成细粒度的句子。通过softmax学习每个对象的权重。
多模态关系图嵌入:关系、属性、文本三种类型节点。

2、 Sentence Auto-Encoder
句子自动编码器,它通过句子的自重构来充分捕捉语言属性。构建句子场景图,通过句子解码器解码由潜在向量编码的句子。
3、 Unpaired Adversarial Caption Inference
跨域对齐和语言鉴别器

结果:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值