Image caption——图像理解
文章目录
1、任务综述以及早期做法
图像理解可以认为是一种动态的目标检测,由全局信息生成image abstract。早先的做法例如《Baby Talk》,《Every picture tell a story》等都是利用图像处理的一些算子提取出图像的特征,经过SVM分类等等得到图像中可能存在的目标object。根据提取出的object以及它们的属性利用CRF或者是一些认为制定的规则来恢复成对图像的描述。这种做法非常依赖于1)图像特征的提取2)生成句子时所需要的规则。自然而然这种效果并不理想。
综上所述,image caption task 的主要任务是:(1) 根据提取得到的图像特征生成object bounding box
(2) 根据bounding box里object内容,利用特定的规则生成图像的描述
2、从Encoder-Decoder结构谈起(前身)
在介绍Image Caption相关的技术前,有必要先来复习一下RNN(循环神经网络)的Encoder-Decoder结构。**我们知道,在最原始的RNN结构中,输入序列和输出序列必须是严格等长的。但在机器翻译等任务中,源语言句子的长度和目标语言句子的长度往往不同,因此我们需要将原始序列映射为一个不同长度的序列。**Encoder-Dec