Good News,Everyone! Context driven entity-aware captioning for news images
时间:2019 CVPR
Intro
本文将image caption分为了三个等级,第一级是对场景中目标的枚举,第二级是基本的描述,第三级是解释,当前的image captioning系统仅仅可以做到描述那一级,而无法将任何先验知识融合到caption生成中,这些先验知识报考社会、政治等等,为此,本文提出了一个模型,将这些信息融合到caption中,本文在新闻数据集上进行image captioning,新闻数据和传统数据(COCO,Flickr)不同之处在于,新闻数据包含了大量的命名实体,其中包括了很多out of vocabulary words
本文的贡献:
- novel的模型,能够利用contextual information来生成解释级的image caption
- 我们提出了两阶段,端到端的结构,能够拓展输出字典到out-of-vocabulary的命名实体
- 我们引入了GoodNews,大型的新闻image captioning数据,包括466000组image caption pair
GoodNews Dataset
Model
如图所示
我们的context driven entity-aware captioning包括两个连续的步骤,第一步,给定一个图片和相关的新闻文章,我们的模型生成一个template caption,其中引入placeholder来代替命名实体的位置,在子阶段,我们的模型选择正确的命名实体来填补这些placeholder,借助在整篇新闻文章上的attention机制
本文的novelty之一是它使用了与图片相关的文章,并将之编码作为第二输入流
Template Caption Generation
caption的公式为
Article Encoding Methods
使用Article-level的encoding解决了word-level encoding的两个不足之处,第一是维数,第二是多义词,首先对于第
j
j
j个句子
GloVe的加权平均,然后使用tough-to-beat baseline,它将第一个PCA主成分从article加权平均中减去,因为第一个主成分对应于语法信息和common words:
Article Encoding with Attention,得到了article sentence level feature
A
f
∈
R
M
×
D
w
A_f\in R^{M\times D_w}
Af∈RM×Dw之后,其中
M
M
M是article中句子的数量,
D
w
D_w
Dw是词向量的维数,我们设计了一个attention机制,将sentence level feature和attention vector
β
t
∈
R
M
\beta_t\in R^M
βt∈RM相乘:
attention通过全连接层学习得到
Named Entity Insertion
template生成之后,有三种Named Entity Insertion的方法,第一是Random insertion(RandIns),作为baseline,第二是context insertion(CtxIns),第三是attention insetion(AttIns)
Experiments
Conclusion
本文以interpretation为目的进行image captioning,提出了新的数据集GoodNews,是新闻上的image captioning 数据集,image caption的输入由图像和文章共同组成,采用两个步骤,生成template然后补充命名实体的方法,创新之处有以下几点
- 在新闻数据集上进行image captioning,新闻数据集相比COCO Flickr等数据集而言,文本更加偏向解释性
- 在image captioning中引入命名实体,使得captioner可以识别一些out-of-dictionary的命名实体,caption更加具体
- 输入使用图片的同时使用了与图片相关的文章,引入额外的信息(虽然一般的Image captionning数据集上都没有与图片对应的文章)