使用外部信息源的信息性图像描述

最新推荐文章于 2021-03-19 05:40:12 发布

a609640147

最新推荐文章于 2021-03-19 05:40:12 发布

阅读量459

点赞数

文章标签：人工智能论文

本文链接：https://blog.csdn.net/a609640147/article/details/97662533

版权

针对现有图像描述任务信息性较差的问题，本文针对Transformer进行改进，将图像信息和细粒度的标签信息整合到图像标题中，并通过控制标题中实体标签的表达形式，从而使生成的标题即流畅并内容丰富。

论文地址:
https://arxiv.org/abs/1705.07878

引言

自动图像描述可以帮助视力障碍人士获取网络上的图像信息，但是它的可用性和它所包含的信息量成正比。通常一个好的模型会提供高其泛化能力，而这与提供包含细粒度的高信息量恰恰矛盾。
通常一个图像描述模型，输入<image, label>，使用CNN提取图像特征，并使用RNN或Transformer生成图像的文本描述。本文为了生成流畅并内容丰富的图像描述，主要做了两点改进：
1、多编码器模型架构和多门控解码器结合，融合基于图像的信息和细粒度实体信息生成富含实体信息的标题。
2、覆盖控制机制，用来控制生成的标题中细粒度实体的表现形式。

数据集

训练使用的数据集为Conceptual Captions，包含330万条<image, caption>数据，image来源自网络，其中caption通过用上位词替换图像对应Alt-text中的细粒度实体获得，如将“Los Angeles” 替换为“City”。文章认为这样不利于生成包含细粒度信息的图像描述，于是对进行了如下预处理：
一、通过条数据的URLs，将细粒度的实体反映射回Caption。
二、获取细粒度的图像标签，通过目标检测获取图像的Object label，如轿车；通过Google Cloud Vision APIs获取地名人名等命名实体作为Web Entity Labels。
使用“selective hypernymization”确保标签到Caption的实体映射。

模型

多编码器Transformer

模型的输入有图像、Object、 Web Entity，因此使用多编码器扩展后的Transformer处理多个输入。
图像编码器：首先使用CNN提取图像特征，然后使用Transformer编码器对特征进行编码， $\mathbf{H}_{i m g}=f_{e n c}(\mathbf{Img}, \theta_{enc_img})$
Object Label 编码器：输入的标签序列，根据检测网络提取时的置信度进行排序，让模型学习到越前的Label越可靠， $\mathbf{H}_{obj}=f_{e n c}(\mathbf{Obj}, \theta_{enc_obj})$
Web entity编码器：此部分有两个不同的实现方式：

使用Google Knowledge Graph获取实体类型，使用实体类型进行编码，然后在生成的caption中，使用该类型得分最高的实体名称替换。
直接使用实体进行编码，加入实体类型作为额外的信息。

Multi-gated Transformer 解码器

通常解码端Transformer每层由3个子层构成：自注意力层，编码注意力层，全连接前馈层。为了融合不同编码器的信息，文中对编码注意层进行改进，分别处理三个不同的数据：

为了自动学习到每个数据源的权重，添加了新的多门限子层，对每个输入源 $S$ ，计算对应的 $Gate_{n,j}^{S}$ :

最后输入到FFN的结果为：

标签覆盖控制

由于图像输入和标签的不对称，文中提出了一种生成Caption中的标签覆盖机制。首先针对Object Label 和Web entity定义了预测分数，其中Object Label可能包含重复信息，因此使用类似精度的方法表示为 $Cov_{obj}^{p}$ ；而实体标签不存在重复，并包含的信息量较大，使用召回率表示为 $Cov_{we}^{p}$ ：

使用回归模型计算分数，对应的loss为：

在生成句子时，使用 $W_{we}^r$ 和 $W_{obj}^p$ 作为两个分数的增强系数。

实验

客观评价标准包括：CIDEr， $Conv_{we}^r$ ， $Conv_{obj}^p$ 。实验的baseline见下图：

本文模型的结果，Type表示训练时使用的是实体类别：

结果表明，本文提出的模型结果较baseline提升明显，增强系数W对相应实体分数影响明显。

从实例上看，结合了实体标签的生成结果，在句子流畅性和信息量上都有明显提升。