【图像理解】之Show, attend and tell算法详解

最新推荐文章于 2024-08-12 08:25:41 发布

shenxiaolu1984

最新推荐文章于 2024-08-12 08:25:41 发布

阅读量4.2w

点赞数 52

分类专栏：论文解读文章标签：深度学习 CV 图像理解机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/51493673

版权

本文详细介绍了Xu等人的“Show, Attend and Tell”算法，该算法结合视觉注意力机制，用于神经图像caption生成。通过VGG网络提取图像特征，使用LSTM进行解码并逐词生成句子。文章涵盖了数据结构、网络结构、训练过程，并对比了不同数据集的表现。" 111504252,5718665,SparkSQL读取Impala Hive Parquet文件字符串问题解析,"['Spark', 'Hadoop', '大数据', '数据处理']

摘要由CSDN通过智能技术生成

Xu, Kelvin, et al. “Show, attend and tell: Neural image caption generation with visual attention.” arXiv preprint arXiv:1502.03044 (2015).

聚焦机制（Attention Mechanism）是当下深度学习前沿热点之一，能够逐个关注输入的不同部分，给出一系列理解。这篇论文是聚焦机制代表作，完成了图像理解中颇具难度的“看图说话”任务。

作者提供了基于Theano的源码(戳这里)，另外有热心群众在Tensorflow上给出了实现(戳这里)。

本文对照Tensorflow版本源码，详解论文算法。

数据结构

从输入到输出经历编码和解码两个部分。

类比：在机器翻译中，编码部分把源语言变成基本语义特征，解码部分把基本语义特征变成目标语言。

输入：图像 $I$
特征(annotation)： ${ a_1...a_i...a_L \}$
上下文(context)： ${z_1...z_t...z_C\}$
输出(caption)： ${y_1...y_t...y_C\}$

这里写图片描述

$I$ 是输入的彩色图像。
有顺序的 $y_t$ 组成一句“说明”(caption)。句子长度 $C$ 不定。每个单词 $y_t$ 是一个 $K$ 维概率， $K$ 是词典的大小。

$a_i$

最低0.47元/天解锁文章

关注

52
点赞
踩
168

收藏

觉得还不错? 一键收藏
17
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 17

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。