《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》笔记

最新推荐文章于 2024-03-08 17:35:28 发布

王权大宝

最新推荐文章于 2024-03-08 17:35:28 发布

阅读量573

点赞数

分类专栏：论文笔记文章标签：机器学习图像理解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29396337/article/details/88395792

版权

论文笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

CVPR 2017

基于注意力的编码器-解码器架构的图像理解方法大多强制注意力机制对生成的每个单词都生效，但预测“the”、“a”这类非视觉词汇不需要太多的信息。《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》文章中提出了一个带有“视觉哨兵”概念的新兴型自使用注意力模型。在每个时间步骤，模型决定关注图像本身还是视觉哨兵。

给定图片和对应的解释，编码器-解码器模型直接最大化一下目标：

其中，θ是模型的参数，是图片t是对应描述。根据链式法则：

为了方便起见，减去对模型参数的依赖。

在编码器解码器架构中，使用LSTM建模每个条件概率：

f是非线性函数，输出的概率。ct是t时刻从图像提取的视觉上下文向量。

是是LSTM在t时刻的隐藏状态，xt是输入向量，mt-1是在t-1时刻的内存单元向量。

解决模型注意图像区域的问题：提出一个空间注意力模型来计算：

其中是注意力函数，是空间图像特征，每个d维向量对应于图像的一个区域。给定，通过单层神经网络接上Softmax函数来生成图像在k个区域上的注意力分布：

其中，1是所有元素都为1的向量。都是需要学习的参数。是在V中特征上的注意力权重，则

解决模型何时注意图像的问题：提出一个新的概念“视觉哨兵”——解码器一直内容的潜在表示。在解码器的内存单元中提取一个新的成分，使模型在选择不关注图像是可以回滚。用“哨兵门”决定关注图像还是视觉哨兵。扩展LSTM来获得视觉哨兵向量：

其中，是是需要学习的权重参数，是LSTM在t时刻的输入，是应用于内存单元的门。

定义一个新的自适应上下文向量：

其中，是t时刻的新哨兵门，产生一个[0,1]的标量。为了计算，修改之前的空间注意力成分：

其中，、Wg是权重参数，与之前一样，就表示空间图像特征和视觉哨兵上的注意力分布，把的最后一列作为门值：。

最后，t时刻可能的词汇表概率分布为：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》笔记

CVPR 2017基于注意力的编码器-解码器架构的图像理解方法大多强制注意力机制对生成的每个单词都生效，但预测“the”、“a”这类非视觉词汇不需要太多的信息。《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》文章中提出了一个带有“视觉哨兵”概念的新兴型自使用注意力模型。...
复制链接

扫一扫

专栏目录

博客等级

码龄9年

24
原创

39
点赞

172
收藏

17
粉丝

关注

私信

分类专栏

最新评论

PDF默认打开方式总是被Edge篡改
云朵伴星星: 没用啊每次开机都是edge 不是wps
PDF默认打开方式总是被Edge篡改
cloudsfans: 试试题主说的方法
PDF默认打开方式总是被Edge篡改
CSDN-Ada助手: 非常感谢博主分享关于PDF默认打开方式的问题，我觉得这是一个非常实用的技巧。接下来，我建议你可以继续写一篇关于Windows系统中常见文件类型默认打开方式的设置技巧，例如如何设置默认的浏览器、音乐播放器等。相信这样的技术文章对其他用户也非常有帮助，期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
联想拯救者Y7000P2019双系统安装与卸载（win10+ubuntu18.04+NVIDIA GeForce RTX2060+CUDA10.0+Cudnn+pytorch）
dmo123: 可以了可以了，没用管理员身份打开刚刚
联想拯救者Y7000P2019双系统安装与卸载（win10+ubuntu18.04+NVIDIA GeForce RTX2060+CUDA10.0+Cudnn+pytorch）
dmo123: 记事本也没办法进入J盘，咋办呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。