【图像理解】之Show, attend and tell算法详解

本文详细介绍了Xu等人的“Show, Attend and Tell”算法,该算法结合视觉注意力机制,用于神经图像caption生成。通过VGG网络提取图像特征,使用LSTM进行解码并逐词生成句子。文章涵盖了数据结构、网络结构、训练过程,并对比了不同数据集的表现。" 111504252,5718665,SparkSQL读取Impala Hive Parquet文件字符串问题解析,"['Spark', 'Hadoop', '大数据', '数据处理']
摘要由CSDN通过智能技术生成

Xu, Kelvin, et al. “Show, attend and tell: Neural image caption generation with visual attention.” arXiv preprint arXiv:1502.03044 (2015).

聚焦机制(Attention Mechanism)是当下深度学习前沿热点之一,能够逐个关注输入的不同部分,给出一系列理解。这篇论文是聚焦机制代表作,完成了图像理解中颇具难度的“看图说话”任务。

作者提供了基于Theano的源码(戳这里),另外有热心群众在Tensorflow上给出了实现(戳这里)

本文对照Tensorflow版本源码,详解论文算法。

数据结构

从输入到输出经历编码和解码两个部分。

类比:在机器翻译中,编码部分把源语言变成基本语义特征,解码部分把基本语义特征变成目标语言。

输入:图像 I I I
特征(annotation): { a 1 . . . a i . . . a L } \{ a_1...a_i...a_L \} { a1...ai...aL}
上下文(context): { z 1 . . . z t . . . z C } \{z_1...z_t...z_C\} { z1...zt...zC}
输出(caption): { y 1 . . . y t . . . y C } \{y_1...y_t...y_C\} { y1...yt...yC}

这里写图片描述

I I I是输入的彩色图像。
有顺序的 y t y_t yt组成一句“说明”(caption)。句子长度 C C C不定。每个单词 y t y_t yt是一个 K K K维概率, K K K是词典的大小。

a i a_i ai

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值