（六十）：Show, Attend and Tell Neural Image Caption Generation with Visual Attention

最新推荐文章于 2023-10-25 22:57:03 发布

Laura_Wangzx

最新推荐文章于 2023-10-25 22:57:03 发布

阅读量484

点赞数 1

分类专栏： “情感分析”研究方向论文-精读总结文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_37486501/article/details/121021063

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 197 订阅 ¥19.90 ¥99.00

订阅专栏

（六十）：Show, Attend and Tell Neural Image Caption Generation with Visual Attention

Abstract
1. Introduction
2. Related Work
3. Image Caption Generation with Attention Mechanism
- 3.1. Model Details
- - 3.1.1. ENCODER: CONVOLUTIONAL FEATURES
  - 3.1.2. DECODER: LONG SHORT-TERM MEMORY NETWORK
4. Learning Stochastic “Hard” vs Deterministic “Soft” Attention
5. Experiments
6. Conclusions

出处： ICML 2015: 2048-2057
代码：https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning
题目：用视觉注意生成神经图像标题
主要内容：我们引入了一个基于注意力的模型，自动学习描述图像的内容，使用BLEU和METEOR度量在三个基准数据集上给出最新的性能。

Abstract

受最近机器翻译和目标检测工作的启发，我们引入了一个基于注意力的模型，自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术以确定性的方式训练这个模型，并通过最大化一个变分下界来随机地训练这个模型。

我们还通过可视化展示了该模型如何在生成输出序列中相应的单词的同时，自动学习将目光固定在显著的目标上。
我们在三个基准数据集上验证了使用最先进的性能：Flickr8k, Flickr30k和MS COCO。

1. Introduction

自动生成图像的标题：是一项非常接近场景理解的核心任务——计算机视觉的主要目标之一。标题生成模型不仅必须足够强大，以解决计算机视觉中确定图像中的对象的挑战，而且还必须能够捕捉和表达它们之间的关系，以一种自然语言。
因此，标题生成一直被视为一个难题。这对机器学习算法来说是一个非常重要的挑战，因为它相当于模仿人类将大量显著的视觉信息压缩成描述性语言的非凡能力。

尽管这项任务具有挑战性，但最近对攻击图像标题生成问题的研究兴趣激增。在训练神经网络(Krizhevsky et

了解本专栏

Laura_Wangzx

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（六十）：Show, Attend and Tell Neural Image Caption Generation with Visual Attention

（六十）：Show, Attend and Tell Neural Image Caption Generation with Visual AttentionAbstract1. Introduction2. Related Work3. Method4. Experimental Setup5. Evaluation Results6. Conclusions出处： ICML 2015: 2048-2057代码：https://github.com/sgrvinod/a-PyTorch-Tutor
复制链接

扫一扫