(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs

最新推荐文章于 2022-07-14 16:07:23 发布

smile909

最新推荐文章于 2022-07-14 16:07:23 发布

阅读量919

点赞数

分类专栏： vqa 文章标签： reading

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smile909/article/details/77511729

版权

vqa 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

作者：Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

(发表于CVPR2017)

（Jonathan Krause, Justin Johnson, Ranjay Krishna都是Li Fei-Fei的博士生，Jonathan Krause已经毕业，就职于Google Brain）

这篇文章提出了一种结构化模型去生成图像段落描述。

首先通过以一个3通道的图像作为输入，这里图像是被resized以使图像的边限制在720像素；

然后利用一个16层的VGG网络学习图像特征图，并以这些图像特征作为RPN的输入进行区域检测;

将检测到的区域投影到卷积特征图中，使用双线插值将特征图对应区域reshaped成为一个固定尺寸，并最终通过2个全连接层使各区域生成一个4096维的特征向量;

另外通过对所有特征进行最大池化，缩减无关信息量，保留最重要的信息;

再将池化后的区域特征向量作为层次循环网络（HRN）的输入，层次循环网络是由句子RNN和词语RNN组成，句子RNN是一个单一层的LSTM;

对于句子RNN，在每个时间步以池化后的区域向量作为输入；

通过隐含层的一个线性投影和一个逻辑回归分类器产生一个用来断定当前句子是否为最后一句的0-1分布，并通过将隐含状态放进一个两层的全连接网络，从而产生对于段落中句子的主题向量;

并以每个句子生成的主题向量作为词RNN的输入，词RNN是一个两层的LSTM，是用来生成构成句子的词语，最终将所有句子连接成一个段落。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。