Semantic Compositional Network for Visual Captioning是2017年发表在CVPR上的一篇论文。它的作者主要来自于杜克大学、清华大学和微软研究院(美国)。在这篇论文发表前,已经有几篇关于是使用语义信息来增强解码器生成语句质量的论文。这篇文章的创新之处在于它提出了一种使用语义信息来和循环神经网络参数进行的集成的方法。多标签分类网络对图像或者视频的分类结果被当作是视觉语义信息。
用于图像描述的普通RNN模型
有图像和对应的描述。我们首先提取特征向量。这通常是预训练卷积神经网络的最后输出的特征图。为了表示的简洁,我们用表示。长度为T的表述。不同的描述语句有不同的。被线性嵌入维的低维空间得到。的概率可以表示为。
对于简单的循环神经网络,它的运作可以表示如下