Engaging Image Captioning via Personality
时间:2019 CVPR arxiv 2018
模型结构图画的很清晰:trained、pretrained、frozen都标的很清楚
Intro
一般的image caption系统给出了caption都是显然的、无个性的结果,而人类考虑的是有吸引力的和高效的caption来避免说一些显然的东西,本文的工作是通过融入个性生成有吸引力的(engaging)caption,建立了PERSONALITY-CAPTIONS数据集,其中包括241858个captions,每一个caption都属于某个personality
PERSONALITY-CAPTIONS
Models
本文考虑了两个caption model,一个是retrieval model,一个是generative model
Image Encoders
两种image encoder,resnet152和resnext 32 × \times × 48d,预训练过的
caption generation models
本文复现了三个常用的SoTA image caption 模型,SHOWTELL,SHOWATTTELL和UPDOWN
Image and Personality Encoders,使用之前提到的image encoder编码成2048维向量给SHOWTELL,对于SHOWATTTELL和UPDOWN,编码7×7×2048给它们,最终,图片的特征会变成一个512维的向量,在SHOWTELL模型中,使用线性变换做到,在另外两个模型中,先用1×1卷积,得到7×7×512的张量,然后使用attention机制将7×7区域变成1×1,当使用personality trait的时候,每个personality trait被编码成512维的向量,类似word embedding
caption decoders,caption model和原来的模型有一些差别,详见论文原文
training and inference,本文使用SCST的两阶段训练方法
caption retrieval models
我们设计了一个简单的retrieval结构,称为TransResNet,它将图片、个性、caption映射到相同的空间 S S S中
Image and Personality Encoders,使用2048的图片特征,然后输入到多层神经网络中得到500维的特征,将每个trait编码成500维的向量,然后将两个结果加起来
caption encoders,每个caption被编码为向量,使用Transformer结构,后面跟上两个全连接,通过点乘来匹配,使用log-likelihood和k个负样本来训练,为了对比,使用了一个简单的bag-of-words encoder,给定图片和personality trait ( I , P ) (I,P) (I,P)以及candidate C C C,得分计算为 s ( I , P , C ) = ( r I + r P ) r C s(I,P,C)=(r_I+r_P)r_C s(I,P,C)=(rI+rP)rC
training and inference,给定
I
,
P
I,P
I,P和candidates集合
(
c
1
,
.
.
.
,
c
N
)
(c_1,...,c_N)
(c1,...,cN),inference time选择score最大的
c
c
c,训练的时候我们将一系列得分传递给softmax层然后来最大化log-likelihood,整个结构如图所示
Experiments
结论
本文提出了同时理解图片内容并生成有吸引力的caption的模型,提出了新的数据集PERSONALITY-CAPTIONS,提出了新的retrieval模型,TranResNet