图像描述(image caption)历年突破性论文总结

图像描述(image caption)历年突破性论文总结

图像描述(image caption)

顾名思义,图像描述是指以图像为输出,通过模型和计算来输出对应图像的自然语言描述。如下图所示,输出的自然语言是“A person riding a motorcycle on a dirt road.“ 。这一领域是结合了人工智能两大方向:计算机视觉和自然语言处理。从2015年的论文:Show and Tell开始,近几年图像描述领域开始快速发展,逐渐加入attention机制、visual sentinel哨兵机制、对CNN的改进、利用强化学习来训练模型以及利用目标检测技术来改进模型,本文将通过对应代表性论文逐一讲解。

Show and Tell: A Neural Image Caption Generator 2015

这篇文章普遍被看作是图像描述进入深度学习时代的经典之作,其实现原来很简单,利用了机器翻译的思想,现将图像提取出抽象的特征,再将特征作为输入来生成自然语言,如下图:

整个模型由两部分组成CNN模型和LSTM模型,第一步,将图像输入到CNN模型中,得到图像的特征,再输入到LSTM模型中,得到相应的描述。可以看到这种方法简单粗暴,算是利用CV和NLP的结合对image caption的一次尝试,其模型的优化目标如下:

其中I代表图像,S代表对应的描述,θ代表模型的参数。在给定图像和参数时使生成描述S的概率最大,从而得到参数,以此来训练模型。
论文链接:https://arxiv.org/pdf/1411.4555.pdf

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 2016

Show and Tell仅仅将图像抽象成单一的特征,而没有考虑到图像的空间特性。同时在生物视觉中,我们人眼看到东西更多的针对图像中的某一区域来来理解,基于这一特性,这篇论文提出了attention机制。
具体来说,将图像生成的描述的每一个单词都对应到图像的某一个区域,如图:

在对这一图像的描述中frisbee单词对应图像中高亮的部分,其他的单词同样对应这相应的区域。
模型如下:

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值