image/vedio caption 论文分享二

A Hierarchical Approach for Generating Descriptive Image Paragraphs【CVPR 2017】

摘要

近年来图像字幕技术的发展使得用自然语言生成描述图像的新颖句子成为可能,但是将图像压缩成一个句子只能粗略地描述视觉内容。虽然一种新的字幕方法,密集字幕,通过描述图像内的多个区域可以潜在地描述更精细的细节,它反过来无法产生一个连贯的故事图像。在本文中,我们通过生成描述图像的完整段落来克服这些限制,这些段落可以讲述详细、统一的故事。我们开发了一个模型,将图像和段落分解为它们的组成部分,检测图像中的语义区域,并使用层次递归神经网络对语言进行推理。语言分析证实了段落生成任务的复杂性,并在一个新的图像和段落对数据集上进行了深入的实验,证明了该方法的有效性。

数据集

Visual Genome dataset的19561图片,每幅图片对应一个段落的描述,训练集:14575 验证集:2487 测试集:2489;由于数据是来自于VG,所以每张图片还包含50个区域描述,35个对象/实体,26个属性以及21个关系和17个问答对。我们发现段落比相应的句子描述更加多样化,动词、助词和形容词更多。

模型

       我们首先通过检测目标和其他感兴趣的区域对输入图像进行分解,然后将这些区域的特征集合起来,产生一个丰富表达图像语义的池表示。该特征向量由句子RNN和单词RNN两个层次组成的递阶递归神经网络作为输入。句子RNN接收图像特征,决定在生成的段落中生成多少句子,并为每个句子生成一个输入主题向量。给定这个主题向量,单词RNN生成单个句子的单词。

实验

我们将我们的方法与许多基线进行了比较,展示了层次化建模在生成描述性段落方面的好处。阅读我们的文章,了解更多关于我们的基线(句子连接和模板方法)。我们在多样性、共指代词、动词、句子长度和词汇量方面与这些基线进行比较和对比。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值