image/vedio caption 论文分享二

最新推荐文章于 2021-12-23 21:16:57 发布

神创之初

最新推荐文章于 2021-12-23 21:16:57 发布

阅读量169

点赞数

本文链接：https://blog.csdn.net/m0_37754042/article/details/107509186

版权

A Hierarchical Approach for Generating Descriptive Image Paragraphs【CVPR 2017】

摘要

近年来图像字幕技术的发展使得用自然语言生成描述图像的新颖句子成为可能，但是将图像压缩成一个句子只能粗略地描述视觉内容。虽然一种新的字幕方法，密集字幕，通过描述图像内的多个区域可以潜在地描述更精细的细节，它反过来无法产生一个连贯的故事图像。在本文中，我们通过生成描述图像的完整段落来克服这些限制，这些段落可以讲述详细、统一的故事。我们开发了一个模型，将图像和段落分解为它们的组成部分，检测图像中的语义区域，并使用层次递归神经网络对语言进行推理。语言分析证实了段落生成任务的复杂性，并在一个新的图像和段落对数据集上进行了深入的实验，证明了该方法的有效性。

数据集

Visual Genome dataset的19561图片，每幅图片对应一个段落的描述，训练集：14575 验证集：2487 测试集：2489；由于数据是来自于VG，所以每张图片还包含50个区域描述，35个对象/实体，26个属性以及21个关系和17个问答对。我们发现段落比相应的句子描述更加多样化，动词、助词和形容词更多。

模型

我们首先通过检测目标和其他感兴趣的区域对输入图像进行分解，然后将这些区域的特征集合起来，产生一个丰富表达图像语义的池表示。该特征向量由句子RNN和单词RNN两个层次组成的递阶递归神经网络作为输入。句子RNN接收图像特征，决定在生成的段落中生成多少句子，并为每个句子生成一个输入主题向量。给定这个主题向量，单词RNN生成单个句子的单词。