Good News,Everyone! Context driven entity-aware captioning for news images

Good News,Everyone! Context driven entity-aware captioning for news images

原文地址

code

时间:2019 CVPR

Intro

本文将image caption分为了三个等级,第一级是对场景中目标的枚举,第二级是基本的描述,第三级是解释,当前的image captioning系统仅仅可以做到描述那一级,而无法将任何先验知识融合到caption生成中,这些先验知识报考社会、政治等等,为此,本文提出了一个模型,将这些信息融合到caption中,本文在新闻数据集上进行image captioning,新闻数据和传统数据(COCO,Flickr)不同之处在于,新闻数据包含了大量的命名实体,其中包括了很多out of vocabulary words

本文的贡献:

  • novel的模型,能够利用contextual information来生成解释级的image caption
  • 我们提出了两阶段,端到端的结构,能够拓展输出字典到out-of-vocabulary的命名实体
  • 我们引入了GoodNews,大型的新闻image captioning数据,包括466000组image caption pair

GoodNews Dataset

在这里插入图片描述

Model

如图所示
在这里插入图片描述
我们的context driven entity-aware captioning包括两个连续的步骤,第一步,给定一个图片和相关的新闻文章,我们的模型生成一个template caption,其中引入placeholder来代替命名实体的位置,在子阶段,我们的模型选择正确的命名实体来填补这些placeholder,借助在整篇新闻文章上的attention机制

本文的novelty之一是它使用了与图片相关的文章,并将之编码作为第二输入流

Template Caption Generation

caption的公式为
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Article Encoding Methods

使用Article-level的encoding解决了word-level encoding的两个不足之处,第一是维数,第二是多义词,首先对于第 j j j个句子
在这里插入图片描述
GloVe的加权平均,然后使用tough-to-beat baseline,它将第一个PCA主成分从article加权平均中减去,因为第一个主成分对应于语法信息和common words:
在这里插入图片描述
Article Encoding with Attention,得到了article sentence level feature A f ∈ R M × D w A_f\in R^{M\times D_w} AfRM×Dw之后,其中 M M M是article中句子的数量, D w D_w Dw是词向量的维数,我们设计了一个attention机制,将sentence level feature和attention vector β t ∈ R M \beta_t\in R^M βtRM相乘:
在这里插入图片描述
attention通过全连接层学习得到
在这里插入图片描述

Named Entity Insertion

template生成之后,有三种Named Entity Insertion的方法,第一是Random insertion(RandIns),作为baseline,第二是context insertion(CtxIns),第三是attention insetion(AttIns)

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

本文以interpretation为目的进行image captioning,提出了新的数据集GoodNews,是新闻上的image captioning 数据集,image caption的输入由图像和文章共同组成,采用两个步骤,生成template然后补充命名实体的方法,创新之处有以下几点

  • 在新闻数据集上进行image captioning,新闻数据集相比COCO Flickr等数据集而言,文本更加偏向解释性
  • 在image captioning中引入命名实体,使得captioner可以识别一些out-of-dictionary的命名实体,caption更加具体
  • 输入使用图片的同时使用了与图片相关的文章,引入额外的信息(虽然一般的Image captionning数据集上都没有与图片对应的文章)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值