Image_captioning

本文介绍了Image Caption任务,包括早期的工作,如《Baby Talk》和《Every picture tell a story》,以及Encoder-Decoder结构在解决序列长度不一致问题上的应用。重点讨论了《Show and Tell: A Neural Image Caption Generator》这篇开山之作,该文将视觉特征与Encoder-Decoder结合,使用Inception模型提取图像特征,并通过LSTM生成图像描述。
摘要由CSDN通过智能技术生成

Image caption——图像理解

1、任务综述以及早期做法

在这里插入图片描述

​ 图像理解可以认为是一种动态的目标检测,由全局信息生成image abstract。早先的做法例如《Baby Talk》,《Every picture tell a story》等都是利用图像处理的一些算子提取出图像的特征,经过SVM分类等等得到图像中可能存在的目标object。根据提取出的object以及它们的属性利用CRF或者是一些认为制定的规则来恢复成对图像的描述。这种做法非常依赖于1)图像特征的提取2)生成句子时所需要的规则。自然而然这种效果并不理想。

​ 综上所述,image caption task 的主要任务是:(1) 根据提取得到的图像特征生成object bounding box

(2) 根据bounding box里object内容,利用特定的规则生成图像的描述

2、从Encoder-Decoder结构谈起(前身)

​ 在介绍Image Caption相关的技术前,有必要先来复习一下RNN(循环神经网络)的Encoder-Decoder结构。**我们知道,在最原始的RNN结构中,输入序列和输出序列必须是严格等长的。但在机器翻译等任务中,源语言句子的长度和目标语言句子的长度往往不同,因此我们需要将原始序列映射为一个不同长度的序列。**Encoder-Dec

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值