《Image Captioning with Semantic Attention》笔记

最新推荐文章于 2024-05-13 10:48:35 发布

王权大宝

最新推荐文章于 2024-05-13 10:48:35 发布

阅读量1.3k

点赞数

分类专栏：论文笔记文章标签：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29396337/article/details/89142329

版权

论文笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

cvpr 2016

图像描述有两种基本模式：top-down和bottom-up。top-down模式就是从图像的一个要素出发，转化它为单词，这类方法很难注意细节。bottom-up模式首先提出描述图像各个方面的单词，然后组合这些单词，这类方法从独立的方面形成句子，缺少端到端形式的训练。此外，人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象。《Image Captioning with Semantic Attention》提出了一个语义注意力模型，并且结合了top-down和bottom-up的方法。该方法的整体架构如下：

首先使用来自分类CNN的中间过滤器的响应来构建全局视觉描述v。CNN的特征只在t=0的时候使用一次，用来初始化RNN，为RNN提供图像内容的概述。此外，运行一组属性检测器来获取最有可能出现在图像中的视觉属性或概念列表，每个对应词典中的一个条目。计算流程如下：

其中，，，和分别是输入注意力模型和输出注意力模型。

预测属性的方法可以有多种，这里提出两种：

（1）非参数方法，基于最近邻图像检索。估算图像之间的距离，并检索训练图片中真值描述的最频繁出现的单词，为每个图像建立一个单词列表作为检测到的视觉属性。

（2）参数属性预测，基于视觉识别任务。选择训练集描述中最普通的词作为一个固定的视觉属性集合，图片的视觉属性可以看做类别子集，学习一个卷积多标签分类问题。

计算输入注意力模型ϕ。t>0，得分分配给每个属性，根据先前预测的单词分配。和都对应于词典中的一个条目，维度为的热独编码，用和分别表示。则，用一个双线性函数估算：

其中，指数用于以softmax的方式对所有进行标准化。因为维度过大，使用Glove方法对上一步的两个热独编码进行降维处理，是的编码矩阵为，，则：

U是d*d的矩阵。用来表示每个属性上注意力的不同强度。所有属性的加权和与先前生成单词被映射到输入空间：

是投射矩阵，建模了视觉属性在词向量空间每个维度上的相对重要性。

计算输出注意力模型φ。在单个句子的分析和合成过程中，输出注意力模型以不同的顺序关注视觉概念：

其中，是双线性参数矩阵。σ是激活函数，在这里用来保证在两个特征向量对比之前应用相同的非线性转换。预测单词的概率分布由线性转化与softmax标准化生成：

是投射矩阵，建模了视觉属性在RNN状态空间每个维度上的相对重要性。

最后，训练数据由输入图像特征，和输出描述单词序列组成。定义所有注意力模型参数，RNN的参数为，则目标损失函数为：

正则化函数g用来保证分配到每个属性上的注意力的完整性和注意力在任一特定时间步骤上的稀疏性：

p>1，处罚在单个属性上有过多注意力；0<q<1，处罚在任一特定时间，注意力分布在过个属性上。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《Image Captioning with Semantic Attention》笔记

cvpr 2016图像描述有两种基本模式：top-down和bottom-up。top-down模式就是从图像的一个要素出发，转化它为单词，这类方法很难注意细节。bottom-up模式首先提出描述图像各个方面的单词，然后组合这些单词，这类方法从独立的方面形成句子，缺少端到端形式的训练。此外，人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象。《Image Captioning wi...
复制链接

扫一扫

专栏目录

王权大宝 CSDN认证博客专家 CSDN认证企业博客

码龄9年

24: 原创

14万+: 周排名

144万+: 总排名

4万+: 访问

: 等级

549: 积分

17: 粉丝

39: 获赞

18: 评论

172: 收藏

私信

关注

分类专栏

最新评论

PDF默认打开方式总是被Edge篡改
云朵伴星星: 没用啊每次开机都是edge 不是wps
PDF默认打开方式总是被Edge篡改
cloudsfans: 试试题主说的方法
PDF默认打开方式总是被Edge篡改
CSDN-Ada助手: 非常感谢博主分享关于PDF默认打开方式的问题，我觉得这是一个非常实用的技巧。接下来，我建议你可以继续写一篇关于Windows系统中常见文件类型默认打开方式的设置技巧，例如如何设置默认的浏览器、音乐播放器等。相信这样的技术文章对其他用户也非常有帮助，期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
联想拯救者Y7000P2019双系统安装与卸载（win10+ubuntu18.04+NVIDIA GeForce RTX2060+CUDA10.0+Cudnn+pytorch）
dmo123: 可以了可以了，没用管理员身份打开刚刚
联想拯救者Y7000P2019双系统安装与卸载（win10+ubuntu18.04+NVIDIA GeForce RTX2060+CUDA10.0+Cudnn+pytorch）
dmo123: 记事本也没办法进入J盘，咋办呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。