Image_captioning

最新推荐文章于 2024-06-17 01:17:22 发布

黄小胖子

最新推荐文章于 2024-06-17 01:17:22 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_42956785/article/details/107516227

版权

本文介绍了Image Caption任务，包括早期的工作，如《Baby Talk》和《Every picture tell a story》，以及Encoder-Decoder结构在解决序列长度不一致问题上的应用。重点讨论了《Show and Tell: A Neural Image Caption Generator》这篇开山之作，该文将视觉特征与Encoder-Decoder结合，使用Inception模型提取图像特征，并通过LSTM生成图像描述。

摘要由CSDN通过智能技术生成

Image caption——图像理解

文章目录

Image caption——图像理解

1、任务综述以及早期做法

在这里插入图片描述

图像理解可以认为是一种动态的目标检测，由全局信息生成image abstract。早先的做法例如《Baby Talk》，《Every picture tell a story》等都是利用图像处理的一些算子提取出图像的特征，经过SVM分类等等得到图像中可能存在的目标object。根据提取出的object以及它们的属性利用CRF或者是一些认为制定的规则来恢复成对图像的描述。这种做法非常依赖于1）图像特征的提取2）生成句子时所需要的规则。自然而然这种效果并不理想。

综上所述，image caption task 的主要任务是：(1) 根据提取得到的图像特征生成object bounding box

(2) 根据bounding box里object内容，利用特定的规则生成图像的描述

2、从Encoder-Decoder结构谈起（前身）

在介绍Image Caption相关的技术前，有必要先来复习一下RNN（循环神经网络）的Encoder-Decoder结构。**我们知道，在最原始的RNN结构中，输入序列和输出序列必须是严格等长的。但在机器翻译等任务中，源语言句子的长度和目标语言句子的长度往往不同，因此我们需要将原始序列映射为一个不同长度的序列。**Encoder-Dec