图像描述中的注意力机制

最新推荐文章于 2024-05-17 19:56:20 发布

金融科技自习生

最新推荐文章于 2024-05-17 19:56:20 发布

阅读量3.9k

点赞数

分类专栏：计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42147780/article/details/88807385

版权

机器学习同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

计算机视觉

3 篇文章 1 订阅

订阅专栏

图像描述（image caption）近几年来借助深度学习端到端的训练生成方式，得到了显著的发展。

总的来说图像描述一般有两种生成范式，一类是botton-up范式 ,一类是 top-down范式

botton-up是经典的范式，这一类模型监测图像中的视觉概念、目标、属性、单词、等

然后再通过语言模型将这些属性连接到一起，从而生成图像描述的句子。（像小学语文给定散乱的字词，然后造句）

而目前应用的大多是top-down范式，这是一类更加现代的方法，这类范式的灵感来源于机器翻译的encode-decode结构。在机器翻译的模型任务将，工作原理是先一句起始序列A（如一句英语句子：I am a student）通过循环神经网络对其编码，然后再通过另外一个循环神经网络对其解码，从而生成目标语言的句子B（如汉语:我是一名学生）

I am a student ---RNN编码--->（向量/矩阵）---RNN解码---> 我是一名学生

图像描述的模型结构完全雷同于机器翻译的这种encode-decode的结构

只不过在编码的过程中对象不一样，机器翻译编码的对象是句子是序列，图像描述编码的是图像。

但是对于机器而言，他们在机算计表示的形式都是向量。

所以图像描述的编码器也只不过是把RNN换成了CNN而已。最具有代表的开山模型有 M-RNN,NIC，

虽然，这种编码-解码的模型结构比经典范式的简单，但是其表现出的效果确实意外的好。

但是这种简单的结构有一个缺点，就是它可能会忽视图片中潜在的、明显的，对图像描述而言可能有用的那些视觉信息。（上图，依次往右效果变差，图二明显忽略了一只狗）

因此Kelvin Xu 手注意力机制在机器翻译与图像识别应用上的成功，将注意力机制引入到了图像描述的任务中来。

注意力机制在图像描述中为什么表现的好？

一般的图像描述编码时，将图像全体编码为一个包括全部图像视觉内容的向量h，这种方法的缺陷在于，当解码模型试着生成下一个词的时候（原本该词通常仅仅只是描述图片的某一部分）使用了整个图片的表示h来条件生成每个词，但是即使用了全部的h,不能对图片的不同部分有效地生成不同的词。

而注意力机制能够起到‘视觉注意’的作用。
　在注意力机制下，图片的编码将被分成n个部分，用CNN表示成h1,h2,,,,hnh1,h2,,,,hn（不是全连接层，而是卷积层，可能是dxdxc,所以n一般是等于dxd）。当RNN生成新词时，注意力总是集中到最相关的图片部分，所以解码器只是使用图片的特定部分来解码。

注意力权重a_ j 是第 j 个字对应的注意力权重。

===========

值得阅读的参考文献：

注意力机制：Recurrent Models of Visual Attention

机器翻译： Neural machine translation by jointly learning to align and translate.

图像描述：Show and tell: A neural image caption generator.

Explain Images with Multimodal Recurrent Neural Networks

有注意力机制的图像描述：

Show, attend and tell: Neural image caption generation with visual attention.

Image Captioning with Semantic Attention

CNN+CNN: Convolutional Decoders for Image Captioning

金融科技自习生

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
图像描述中的注意力机制

图像描述（image caption）近几年来借助深度学习端到端的训练生成方式，得到了显著的发展。总的来说图像描述一般有两种生成范式，一类是botton-up范式,一类是 top-down范式botton-up是经典的范式，这一类模型监测图像中的视觉概念、目标、属性、单词、等然后再通过语言模型将这些属性连接到一起，从而生成图像描述的句子。（像小学语文给定散乱的字词，然后造句）而...
复制链接

扫一扫

专栏目录

金融科技自习生 CSDN认证博客专家 CSDN认证企业博客

码龄6年

53: 原创

5万+: 周排名

171万+: 总排名

14万+: 访问

: 等级

1945: 积分

70: 粉丝

113: 获赞

35: 评论

553: 收藏

私信

关注

热门文章

分类专栏

最新评论

【精简推导】线性回归、岭回归、Lasso回归（最小二乘法）
xubin17854112852: Lasso不是从根本上解决多重共线性问题，而是限制多重共线性带来的影响。后面这句话怎么理解？
深度之眼【Pytorch】-读取自己的数据 Dataset 和 ImageFolder
-Liy: 可以用 transforms.Grayscale()
一行命令取消Mac命令行默认使用conda
陈嘿萌: 有用！设置base为默认终端的窗口，感谢。conda config --set auto_activate_base true
深度之眼【Pytorch】-读取自己的数据 Dataset 和 ImageFolder
lmw0320: 我有个疑问，对于pytorch自带的ImageFolder方法，其输入的是数据集的文件夹路径，其貌似原本就是将数据用PIL.Image进行读取的，然后传入transform处理，转成tensor。如果说我设置transform是None，那其获取到的dataset应该是tensor格式，还是PIL.Image的图片格式？我测试过，貌似是图片格式的，那要如何进行参数设置，确保其不传入transform的情况下，转成的是tensor格式呢？ ---我主要是想事先获取到训练数据集的均值和标准差，方便实际加载数据集的transforms的标准化操作。
scikit-learn机器学习--随机森林
lhvhkih: 交叉验证得到最佳的值怎么用到随机森林模型中去

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。