Good News,Everyone! Context driven entity-aware captioning for news images

最新推荐文章于 2022-09-05 17:10:36 发布

luputo

最新推荐文章于 2022-09-05 17:10:36 发布

阅读量1.2k

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/luo3300612/article/details/92977044

版权

论文笔记专栏收录该内容

41 篇文章 3 订阅

订阅专栏

Good News,Everyone! Context driven entity-aware captioning for news images

原文地址

code

时间：2019 CVPR

Intro

本文将image caption分为了三个等级，第一级是对场景中目标的枚举，第二级是基本的描述，第三级是解释，当前的image captioning系统仅仅可以做到描述那一级，而无法将任何先验知识融合到caption生成中，这些先验知识报考社会、政治等等，为此，本文提出了一个模型，将这些信息融合到caption中，本文在新闻数据集上进行image captioning，新闻数据和传统数据（COCO，Flickr）不同之处在于，新闻数据包含了大量的命名实体，其中包括了很多out of vocabulary words

本文的贡献：

novel的模型，能够利用contextual information来生成解释级的image caption
我们提出了两阶段，端到端的结构，能够拓展输出字典到out-of-vocabulary的命名实体
我们引入了GoodNews，大型的新闻image captioning数据，包括466000组image caption pair

GoodNews Dataset

在这里插入图片描述

Model

如图所示
在这里插入图片描述
我们的context driven entity-aware captioning包括两个连续的步骤，第一步，给定一个图片和相关的新闻文章，我们的模型生成一个template caption，其中引入placeholder来代替命名实体的位置，在子阶段，我们的模型选择正确的命名实体来填补这些placeholder，借助在整篇新闻文章上的attention机制

本文的novelty之一是它使用了与图片相关的文章，并将之编码作为第二输入流

Template Caption Generation

caption的公式为
在这里插入图片描述

Article Encoding Methods

使用Article-level的encoding解决了word-level encoding的两个不足之处，第一是维数，第二是多义词，首先对于第 $j$ 个句子
在这里插入图片描述
GloVe的加权平均，然后使用tough-to-beat baseline，它将第一个PCA主成分从article加权平均中减去，因为第一个主成分对应于语法信息和common words：

Article Encoding with Attention，得到了article sentence level feature $A_f\in R^{M\times D_w}$ 之后，其中 $M$ 是article中句子的数量， $D_w$ 是词向量的维数，我们设计了一个attention机制，将sentence level feature和attention vector $\beta_t\in R^M$ 相乘：
在这里插入图片描述
attention通过全连接层学习得到

Named Entity Insertion

template生成之后，有三种Named Entity Insertion的方法，第一是Random insertion（RandIns），作为baseline，第二是context insertion（CtxIns），第三是attention insetion（AttIns）

Experiments

在这里插入图片描述

Conclusion

本文以interpretation为目的进行image captioning，提出了新的数据集GoodNews，是新闻上的image captioning 数据集，image caption的输入由图像和文章共同组成，采用两个步骤，生成template然后补充命名实体的方法，创新之处有以下几点

在新闻数据集上进行image captioning，新闻数据集相比COCO Flickr等数据集而言，文本更加偏向解释性
在image captioning中引入命名实体，使得captioner可以识别一些out-of-dictionary的命名实体，caption更加具体
输入使用图片的同时使用了与图片相关的文章，引入额外的信息（虽然一般的Image captionning数据集上都没有与图片对应的文章）

luputo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Good News,Everyone! Context driven entity-aware captioning for news images

Good News,Everyone! Context driven entity-aware captioning for news images原文地址code时间：2019 CVPRIntro本文将image caption分为了三个等级，第一级是对场景中目标的枚举，第二级是基本的描述，第三级是解释，当前的image captioning系统仅仅可以做到描述那一级，而无法将任何先验...
复制链接

扫一扫

专栏目录