一、本文目标
提出了一个名为StyleNet的新框架,以解决为图像和视频提供具有不同风格的图片字幕的任务。
二、本文贡献
本文是第一个研究用样式来生成有吸引力的图片字幕的问题,而不需要使用受监督的特殊图像-标题配对数据。
本文提出了一个端到端可学习的StyleNet框架,它可以自动从文本库中提取出样式因子。在标题生成中,样式因子可以被显式地合并以产生有吸引力的标题和所需的样式。
本文收集了一个新的Flickr图片字幕数据集。希望这个数据集可以帮助推进图像字幕的研究。
本文展示的StyleNet框架和Flickr的图片标题数据集也可以用来制作有吸引力的视频字幕。
三、StyleNet框架
第一层输入图片和真实的图片字幕进行学习
第二层和第三层输入浪漫风格和幽默风格的文本集
这三层都有一个factored LSTM结构用于学习,其中的参数是共享的除了特定的风格因子矩阵:SF, SR, SH
通过多任务学习
四、Factored LSTM
4.1 LSTM
LSTM是一种特殊的RNN,用于解决梯度消失和爆炸问题。LSTM的核心是记忆单元,它编码了每次输入的知识中被看到的部分,其中的门决定什么时候传递多少信息。特别地,有三个门:输入门it用来控制当前的输入xt,忘记门ft忘记以前的记忆ct-1,输出门ot是用来控制有多少内存被转移到隐藏状态ht。它们一起使LSTM能够在顺序数据中建立长期依赖关系。在LSTM块中,时间t中的门和单元更新规则如右图所示:
变量xt是时间t的输入序列的元素,而W表示要学习的LSTM参数。具体地说,Wix、Wfx、Wox和Wcx是应用于输入变量xt的权重矩阵,Wih、Wfh、Woh和Wch是用于重复更新隐藏状态值的权重矩阵。
4.2 Factored LSTM
因式分解传统LSTM中的参数Wx为三个矩阵Ux, Sx, Vx。
本文保留了重复的权重矩阵,包括Wih、Wfh、Woh和Wch,它们主要捕获语言的长时间的语法依赖,没有改变。
因此,因式分解后的LSTM中的记忆单元和门定义如下:
在分解的LSTM模型中,矩阵集{U}、{V}和{W}在不同的风格中共享,这些参数用于在所有文本数据中对一般的事实描述进行建模。然而,矩阵集{S}是特定于风格的。即框架中的SF, SR, SH
五、训练StyleNet
factored LSTM模型有两种类型的任务需要优化。在第一个任务中,LSTM根据成对的图像生成事实说明。在第二个任务中,被分解的LSTM被训练为语言模型。
除了特定风格的因素矩阵之外,这两个任务的factored LSTMs的参数都是共享的。
不同任务之间的损失函数是在每t步时单词xt的负对数概率
运行时,使用特定风格的矩阵S加上其他共享的参数集以组成factored LSTM,然后提取并转换输入图像的特征向量,并将其输入到基于factored LSTM的解码器中,以生成所需样式的字幕。
六、实验评估
为了评估由StyleNet生成的说明,本文使用了4个通常用于图像字幕的指标,包括BLEU、METEOR、ROUGE和CIDEr。
人类评估也显示StyleNet的结果吸引人。
对于每张照片,本文呈现了由NIC、CaptionBot和StyleNet创作的四段文字说明,并随机向评委们展示了一种幽默风格,并要求他们选择在社交媒体上分享图片的情景下最具吸引力的文字说明。
几乎85%的人认为StyleNet的结果更具吸引力。
本文还在视频字幕生成上做了实验。超过80%的人认为StyleNet生成的字幕较好
七、结果展示
八、总结
本文的目标是生成具有不同风格的具有吸引力的图片字幕。为此,本文开发了一个名为StyleNet的端到端可训练框架。通过使用特殊的LSTM模块和多任务学习,StyleNet能够从文本语料库中学习风格。
在运行时,可以通过factored LSTM模块将风格合并到图片说明的生成过程中。
本文的定量和定性结果表明,所提的StyleNet确实能够生成具有不同风格的相关图片说明。