(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs

作者:Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

(发表于CVPR2017)

(Jonathan Krause, Justin Johnson, Ranjay Krishna都是Li Fei-Fei的博士生,Jonathan Krause已经毕业,就职于Google Brain)

这篇文章提出了一种结构化模型去生成图像段落描述。

首先通过以一个3通道的图像作为输入,这里图像是被resized以使图像的边限制在720像素;

然后利用一个16层的VGG网络学习图像特征图,并以这些图像特征作为RPN的输入进行区域检测;

将检测到的区域投影到卷积特征图中,使用双线插值将特征图对应区域reshaped成为一个固定尺寸,并最终通过2个全连接层使各区域生成一个4096维的特征向量;

另外通过对所有特征进行最大池化,缩减无关信息量,保留最重要的信息;

再将池化后的区域特征向量作为层次循环网络(HRN)的输入,层次循环网络是由句子RNN和词语RNN组成,句子RNN是一个单一层的LSTM;

对于句子RNN,在每个时间步以池化后的区域向量作为输入;

通过隐含层的一个线性投影和一个逻辑回归分类器产生一个用来断定当前句子是否为最后一句的0-1分布,并通过将隐含状态放进一个两层的全连接网络,从而产生对于段落中句子的主题向量;

并以每个句子生成的主题向量作为词RNN的输入,词RNN是一个两层的LSTM,是用来生成构成句子的词语,最终将所有句子连接成一个段落。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值