image caption和NLP中的注意力机制

最新推荐文章于 2023-02-16 23:17:01 发布

菠萝大仙

最新推荐文章于 2023-02-16 23:17:01 发布

阅读量1k

点赞数 1

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_38296553/article/details/107348548

版权

image caption和NLP中的注意力机制

最近在学习有关image caption（图像描述）的内容，记录下学习内容和思考，以便后续学习。本文参考了很多大神的笔记和论文。

如何理解Image caption

自然语言翻译是输入输出都为句子，而对于image caption 是输入为图像，输出为图像的语言描述。Natural image captioning,发展至今主要有三种方法：retrieved-based method（基于检索的方法）, object detection-based method（基于对象检测的方法）, encoder–decoder method（编码器－解码器方法）。
另一个说法更广泛：基于模板、基于检索、深度学习三种方法【1】。

基于检索的图像描述可以进一步细分为基于视觉空间的检索方法和基于多模态空间的检索方法。基于深度学习的图像描述方法，典型的方法主要有基于注意力机制的方法和基于强化学习的方法，应用最广泛的模型是编－解码的图像描述生成模型。

我的理解就是基于模板就是先对图像生成标注也就是关键词，再根据图像场景选择句子模板，最后合在一块；基于检索就是有一个图像库和句子库，给图像检索匹配最相似的图像，得到他的描述语句。基于深度学习的方法里面，注意力机制一般都是和encode-decode模型结合的，强化学习不太了解，可能也是结合的？还有文章提到基于多模态学习，文【2】说深度学习也可分视觉空间和多模空间（但一般就不这样分）。这里面理解多模态或许就是一种嵌入方法，对齐方法。好像不是，观察视觉空间和多模空间，好像说的是多模空间可能是包括视觉语言等多模，所以说视觉空间重点在处理图像，匹配图像相似度等，多模空间。处理多模信息，包括两个特征映射到同一空间。

基于模板的图像描述生成方法。该方法利用图像标注技术为物体、物体场景以及组成部分进行标注。选择与图像内容描述场景相关的句子作为表达模板，将提取的图像特征填入模板，继而得到图像的描述句子。概率图模型方法对文本信息和图像信息建立模型，可从文本数据集中挑选合适的关键词，将其作为体现图像描述内容的关键词，利用语言模型技术将选取的内容关键词组合为合乎语法规则习惯的英文句子。该方法的研究虽然能够描述图像内容，但是在一定程度上限制了描述语句的多样性，使生成的描述不够灵活、新颖。

基于检索的图像描述生成方法。该方法探寻文本与图像之间的关联，把文本和图像映射到一个共同语义空间。结合相似度的计算方法，对图像内容和文本意义的关系程度进行排名，检索出和测试图像关系最接近的文本作为测试图像的最终文本描述。该方法把生成图像描述看作是一种检索任务，但检索前都需要调整和泛化过程，这无疑给描述任务又增加了处理过程和复杂度。

基于深度学习的图像描述生成方法。目前主流的深度学习模型是端到端的训练方法。一方面采用多层深度卷积神经网络技术对图像中的物体特征概念建立模型;另一方面采用循环神经网络对文本建立模型。运用循环神经网络进行建模，将文本信息与图像信息映射在同一个循环神经网络中，利用图像信息指导文本句子的生成。随着深度学习的研究进展，基于注意力机制和强化学习改进的研究方法相继涌现，并不断推动图像描述生成模型的发展。该方法没有任何模板、规则的约束，能自动推断出测试图像和其相应的文本，自动地从大量的训练集中去学习图像和文本信息，生成更灵活、更新颖的文本描述，还能描述从未见过的图像内容特征。

近几年，image caption大多用的encode-decode模型，结构如下：
在这里插入图片描述
在image caption中，通常用的encode结构是各种CNN网络，decode结构是各种RNN网络。目前大多数的image caption 中都会用到注意力机制，注意力机制是对目标数据进行加权变化，会根据目标任务选择关注的区域，这样就能更高效的处理问题，避免长句、大图处理效率低的问题。

在这里插入图片描述
更全面的一篇综述！！！A Comprehensive Survey of Deep Learning for Image Captioning

1.Feature Mapping
visual space和multimodal space，前者的image features和corresponding captions独立传到language decoder，后者是通过两者建立的a shared multimodal space传到language decode
在这里插入图片描述

Show and Tell: A Neural Image Caption Generator

2015
贡献：将CNN和LSTM结构结合用于image caption 在这里插入图片描述

该文中图像特征只用于x-1，即最开始的输入，句子S经过W映射后输入LSTM中，后面很多文章图像特征作用于LSTM每个状态输入
在这里插入图片描述

[1]张姣,杨振宇.图像描述生成方法研究文献综述[J].智能计算机与应用,2019,9(05):45-49.

菠萝大仙

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫