图像描述（image caption）历年突破性论文总结

最新推荐文章于 2025-03-21 23:57:15 发布

Charles、洛

最新推荐文章于 2025-03-21 23:57:15 发布

阅读量1.4w

点赞数 33

分类专栏：论文研读计算机视觉文章标签：人工智能计算机视觉图像描述 image caption

本文链接：https://blog.csdn.net/sinat_35177634/article/details/88102512

版权

图像描述（image caption）历年突破性论文总结

图像描述(image caption)

顾名思义，图像描述是指以图像为输出，通过模型和计算来输出对应图像的自然语言描述。如下图所示，输出的自然语言是“A person riding a motorcycle on a dirt road.“ 。这一领域是结合了人工智能两大方向：计算机视觉和自然语言处理。从2015年的论文：Show and Tell开始，近几年图像描述领域开始快速发展，逐渐加入attention机制、visual sentinel哨兵机制、对CNN的改进、利用强化学习来训练模型以及利用目标检测技术来改进模型，本文将通过对应代表性论文逐一讲解。

Show and Tell: A Neural Image Caption Generator 2015

这篇文章普遍被看作是图像描述进入深度学习时代的经典之作，其实现原来很简单，利用了机器翻译的思想，现将图像提取出抽象的特征，再将特征作为输入来生成自然语言，如下图：

整个模型由两部分组成CNN模型和LSTM模型，第一步，将图像输入到CNN模型中，得到图像的特征，再输入到LSTM模型中，得到相应的描述。可以看到这种方法简单粗暴，算是利用CV和NLP的结合对image caption的一次尝试，其模型的优化目标如下：

其中I代表图像，S代表对应的描述，θ代表模型的参数。在给定图像和参数时使生成描述S的概率最大，从而得到参数，以此来训练模型。
论文链接：https://arxiv.org/pdf/1411.4555.pdf

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 2016

Show and Tell仅仅将图像抽象成单一的特征，而没有考虑到图像的空间特性。同时在生物视觉中，我们人眼看到东西更多的针对图像中的某一区域来来理解，基于这一特性，这篇论文提出了attention机制。
具体来说，将图像生成的描述的每一个单词都对应到图像的某一个区域，如图：

在对这一图像的描述中frisbee单词对应图像中高亮的部分，其他的单词同样对应这相应的区域。
模型如下：

最低0.47元/天解锁文章