针对现有图像描述任务信息性较差的问题,本文针对Transformer进行改进,将图像信息和细粒度的标签信息整合到图像标题中,并通过控制标题中实体标签的表达形式,从而使生成的标题即流畅并内容丰富。
论文地址:
https://arxiv.org/abs/1705.07878
引言
自动图像描述可以帮助视力障碍人士获取网络上的图像信息,但是它的可用性和它所包含的信息量成正比。通常一个好的模型会提供高其泛化能力,而这与提供包含细粒度的高信息量恰恰矛盾。
通常一个图像描述模型,输入<image, label>,使用CNN提取图像特征,并使用RNN或Transformer生成图像的文本描述。本文为了生成流畅并内容丰富的图像描述,主要做了两点改进:
1、多编码器模型架构和多门控解码器结合,融合基于图像的信息和细粒度实体信息生成富含实体信息的标题。
2、覆盖控制机制,用来控制生成的标题中细粒度实体的表现形式。
数据集
训练使用的数据集为Conceptual Captions,包含330万条<image, caption>数据,image来源自网络,其中caption通过用上位词替换图像对应Alt-text中的细粒度实体获得,如将“Los Angeles” 替换为“City”。文章认为这样不利于生成包含细粒度信息的图像描述,于是对进行了如下预处理:
一、通过条数据的URLs,将细粒度的实体反映射回Caption。
二、获取细粒度的图像标签,通过目标检测获取图像的Object label,如轿车;通过Google Cloud Vision APIs获取地名人名等命名实体作为Web Entity Labels。
使用“selective hypernymization”确保标签到Caption的实体映射。
模型
多编码器Transformer
模型的输入有图像、Object、 Web Entity,因此使用多编码器扩展后的Transformer处理多个输入。
图像编码器:首先使用CNN提取图像特征,然后使用Transformer编码器对特征进行编码,
H
i
m
g
=
f
e
n
c
(
I
m
g
,
θ
e
n
c
i
m
g
)
\mathbf{H}_{i m g}=f_{e n c}(\mathbf{Img}, \theta_{enc_img})
Himg=fenc(Img,θencimg)
Object Label 编码器:输入的标签序列,根据检测网络提取时的置信度进行排序,让模型学习到越前的Label越可靠,
H
o
b
j
=
f
e
n
c
(
O
b
j
,
θ
e
n
c
o
b
j
)
\mathbf{H}_{obj}=f_{e n c}(\mathbf{Obj}, \theta_{enc_obj})
Hobj=fenc(Obj,θencobj)
Web entity编码器:此部分有两个不同的实现方式:
- 使用Google Knowledge Graph获取实体类型,使用实体类型进行编码,然后在生成的caption中,使用该类型得分最高的实体名称替换。
- 直接使用实体进行编码,加入实体类型作为额外的信息。
Multi-gated Transformer 解码器
通常解码端Transformer每层由3个子层构成:自注意力层,编码注意力层,全连接前馈层。为了融合不同编码器的信息,文中对编码注意层进行改进,分别处理三个不同的数据:
为了自动学习到每个数据源的权重,添加了新的多门限子层,对每个输入源
S
S
S,计算对应的
G
a
t
e
n
,
j
S
Gate_{n,j}^{S}
Gaten,jS:
最后输入到FFN的结果为:
标签覆盖控制
由于图像输入和标签的不对称,文中提出了一种生成Caption中的标签覆盖机制。首先针对Object Label 和Web entity定义了预测分数,其中Object Label可能包含重复信息,因此使用类似精度的方法表示为
C
o
v
o
b
j
p
Cov_{obj}^{p}
Covobjp;而实体标签不存在重复,并包含的信息量较大,使用召回率表示为
C
o
v
w
e
p
Cov_{we}^{p}
Covwep:
使用回归模型计算分数,对应的loss为:
在生成句子时,使用
W
w
e
r
W_{we}^r
Wwer和
W
o
b
j
p
W_{obj}^p
Wobjp作为两个分数的增强系数。
实验
客观评价标准包括:CIDEr,
C
o
n
v
w
e
r
Conv_{we}^r
Convwer,
C
o
n
v
o
b
j
p
Conv_{obj}^p
Convobjp。实验的baseline见下图:
本文模型的结果,Type表示训练时使用的是实体类别:
结果表明,本文提出的模型结果较baseline提升明显,增强系数W对相应实体分数影响明显。
从实例上看,结合了实体标签的生成结果,在句子流畅性和信息量上都有明显提升。
结论
本文提出的图像描述模型表明,结合细粒度实体和物体标签的图像特征,可以生成即流畅又内容丰富的图像描述。
扫码识别关注,获取更多论文解读