一周论文 | Image Caption任务综述

最新推荐文章于 2024-08-29 10:04:43 发布

阿拉蕾二

最新推荐文章于 2024-08-29 10:04:43 发布

阅读量739

点赞数 1

本文链接：https://blog.csdn.net/qq_44906416/article/details/89309470

版权

Image Caption任务结合计算机视觉和自然语言处理，旨在用自然语言描述图像内容。目前主流方法基于encoder-decoder模型，如CNN-RNN，其中LSTM能捕捉长距离依赖。本文综述了多种模型，包括NIC、MS Captivator、Att-CNN+LSTM等，探讨了注意力机制、语义指导和高层语义信息对生成准确描述的影响。

摘要由CSDN通过智能技术生成

　引言

　　Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题，它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易，但是对于机器却非常具有挑战性，它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外，模型还需要能够抓住图像的语义信息，并且生成人类可读的句子。

　　随着机器翻译和大数据的兴起，出现了Image Caption的研究浪潮。当前大多数的Image Caption方法基于encoder-decoder模型。其中encoder一般为卷积神经网络，利用最后全连接层或者卷积层的特征作作为图像的特征，decoder一般为递归神经网络，主要用于图像描述的生成。由于普通RNN存在梯度下降的问题，RNN只能记忆之前有限的时间单元的内容，而LSTM是一种特殊的RNN架构，能够解决梯度消失等问题，并且其具有长期记忆，所以一般在decoder阶段采用LSTM.

　　问题描述

　　Image Caption问题可以定义为二元组(I,S)的形式，其中I表示图，S为目标单词序列，其中S={S1,S2,…}，其中St为来自于数据集提取的单词。训练的目标是使最大似然p(S|I)取得最大值，即使生成的语句和目标语句更加匹配，也可以表达为用尽可能准确的用语句去描述图像。

　　数据集

　　论文中常用数据集为Flickr8k,Flick30k,MSCOCO,其中各个数据集的图片数量如下表所示。