使用外部信息源的信息性图像描述

针对现有图像描述任务信息性较差的问题,本文针对Transformer进行改进,将图像信息和细粒度的标签信息整合到图像标题中,并通过控制标题中实体标签的表达形式,从而使生成的标题即流畅并内容丰富。

论文地址:
https://arxiv.org/abs/1705.07878

引言

自动图像描述可以帮助视力障碍人士获取网络上的图像信息,但是它的可用性和它所包含的信息量成正比。通常一个好的模型会提供高其泛化能力,而这与提供包含细粒度的高信息量恰恰矛盾。
通常一个图像描述模型,输入<image, label>,使用CNN提取图像特征,并使用RNN或Transformer生成图像的文本描述。本文为了生成流畅并内容丰富的图像描述,主要做了两点改进:
1、多编码器模型架构和多门控解码器结合,融合基于图像的信息和细粒度实体信息生成富含实体信息的标题。
2、覆盖控制机制,用来控制生成的标题中细粒度实体的表现形式。

数据集

训练使用的数据集为Conceptual Captions,包含330万条<image, caption>数据,image来源自网络,其中caption通过用上位词替换图像对应Alt-text中的细粒度实体获得,如将“Los Angeles” 替换为“City”。文章认为这样不利于生成包含细粒度信息的图像描述,于是对进行了如下预处理:
一、通过条数据的URLs,将细粒度的实体反映射回Caption。
二、获取细粒度的图像标签,通过目标检测获取图像的Object label,如轿车;通过Google Cloud Vision APIs获取地名人名等命名实体作为Web Entity Labels。
使用“selective hypernymization”确保标签到Caption的实体映射。

模型

多编码器Transformer

模型的输入有图像、Object、 Web Entity,因此使用多编码器扩展后的Transformer处理多个输入。
图像编码器:首先使用CNN提取图像特征,然后使用Transformer编码器对特征进行编码, H i m g = f e n c ( I m g , θ e n c i m g ) \mathbf{H}_{i m g}=f_{e n c}(\mathbf{Img}, \theta_{enc_img}) Himg=fenc(Img,θencimg)
Object Label 编码器:输入的标签序列,根据检测网络提取时的置信度进行排序,让模型学习到越前的Label越可靠, H o b j = f e n c ( O b j , θ e n c o b j ) \mathbf{H}_{obj}=f_{e n c}(\mathbf{Obj}, \theta_{enc_obj}) Hobj=fenc(Obj,θencobj)
Web entity编码器:此部分有两个不同的实现方式:

  1. 使用Google Knowledge Graph获取实体类型,使用实体类型进行编码,然后在生成的caption中,使用该类型得分最高的实体名称替换。
  2. 直接使用实体进行编码,加入实体类型作为额外的信息。
Multi-gated Transformer 解码器

通常解码端Transformer每层由3个子层构成:自注意力层,编码注意力层,全连接前馈层。为了融合不同编码器的信息,文中对编码注意层进行改进,分别处理三个不同的数据:

为了自动学习到每个数据源的权重,添加了新的多门限子层,对每个输入源 S S S,计算对应的 G a t e n , j S Gate_{n,j}^{S} Gaten,jS:

最后输入到FFN的结果为:

标签覆盖控制

由于图像输入和标签的不对称,文中提出了一种生成Caption中的标签覆盖机制。首先针对Object Label 和Web entity定义了预测分数,其中Object Label可能包含重复信息,因此使用类似精度的方法表示为 C o v o b j p Cov_{obj}^{p} Covobjp;而实体标签不存在重复,并包含的信息量较大,使用召回率表示为 C o v w e p Cov_{we}^{p} Covwep

使用回归模型计算分数,对应的loss为:

在生成句子时,使用 W w e r W_{we}^r Wwer W o b j p W_{obj}^p Wobjp作为两个分数的增强系数。

实验

客观评价标准包括:CIDEr, C o n v w e r Conv_{we}^r Convwer C o n v o b j p Conv_{obj}^p Convobjp。实验的baseline见下图:

本文模型的结果,Type表示训练时使用的是实体类别:

结果表明,本文提出的模型结果较baseline提升明显,增强系数W对相应实体分数影响明显。

从实例上看,结合了实体标签的生成结果,在句子流畅性和信息量上都有明显提升。

结论

本文提出的图像描述模型表明,结合细粒度实体和物体标签的图像特征,可以生成即流畅又内容丰富的图像描述。



扫码识别关注,获取更多论文解读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值