图像描述(image caption)历年突破性论文总结
图像描述(image caption)
顾名思义,图像描述是指以图像为输出,通过模型和计算来输出对应图像的自然语言描述。如下图所示,输出的自然语言是“A person riding a motorcycle on a dirt road.“ 。这一领域是结合了人工智能两大方向:计算机视觉和自然语言处理。从2015年的论文:Show and Tell开始,近几年图像描述领域开始快速发展,逐渐加入attention机制、visual sentinel哨兵机制、对CNN的改进、利用强化学习来训练模型以及利用目标检测技术来改进模型,本文将通过对应代表性论文逐一讲解。
Show and Tell: A Neural Image Caption Generator 2015
这篇文章普遍被看作是图像描述进入深度学习时代的经典之作,其实现原来很简单,利用了机器翻译的思想,现将图像提取出抽象的特征,再将特征作为输入来生成自然语言,如下图:
整个模型由两部分组成CNN模型和LSTM模型,第一步,将图像输入到CNN模型中,得到图像的特征,再输入到LSTM模型中,得到相应的描述。可以看到这种方法简单粗暴,算是利用CV和NLP的结合对image caption的一次尝试,其模型的优化目标如下:
其中I代表图像,S代表对应的描述,θ代表模型的参数。在给定图像和参数时使生成描述S的概率最大,从而得到参数,以此来训练模型。
论文链接:https://arxiv.org/pdf/1411.4555.pdf
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 2016
Show and Tell仅仅将图像抽象成单一的特征,而没有考虑到图像的空间特性。同时在生物视觉中,我们人眼看到东西更多的针对图像中的某一区域来来理解,基于这一特性,这篇论文提出了attention机制。
具体来说,将图像生成的描述的每一个单词都对应到图像的某一个区域,如图:
在对这一图像的描述中frisbee单词对应图像中高亮的部分,其他的单词同样对应这相应的区域。
模型如下: