《Neural Baby Talk》笔记

最新推荐文章于 2021-10-09 10:17:02 发布

王权大宝

最新推荐文章于 2021-10-09 10:17:02 发布

阅读量892

点赞数 1

分类专栏：论文笔记文章标签：论文笔记图像理解图像描述计算机视觉

本文链接：https://blog.csdn.net/qq_29396337/article/details/89466070

版权

论文笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

cvpr 2018

大多数图像描述的方法可以分类两类，经典的槽填充和现代神经描述方法。《Neural Baby Talk》协调了这两种方法，首先生成一个句子模板，这个模板的插槽位置明确的与特定的图像区域相关联。这些插槽随后由被对象检测器在区域中识别出来的视觉概念填充。整个模型有两个阶段，是端到端可区分的。

尽管现在图像描述的方法加入了注意力，但这些方法仍然缺少视觉基础，没有将命名的概念与图像中的像素相关联。他们倾向于“看”与人类关注点不同的区域，并且倾向于从训练数据中复制描述。作者认为语言模型并不一定是必要的，生成的描述应该更多依赖于对象检测器检测到的实体，而不是根据语言环境推测物体。作者主要的技术贡献是一个新的用于真值图像描述的神经解码器。在每个时间步骤，模型决定是生成一个文本单词还是视觉单词。视觉单词本质上是一个形符，它将支撑用于描述图像中特定区域的单词的槽。

给定图像，我们的任务是生成真值视觉描述。设表示从图像中提取的N个区域集合。当我们要生成一个描述中的实体单词时，我们需要把这个单词与特定的相关联。根据标准有监督学习范例，我们通过最大化正确描述的概率来学习参数：

根据链式法则，联合概率分布可以在形符序列上分解：

引入表示与t对应的真值区域，则：

有两种的形式和，表示与中的一个特定区域接地的视觉单词，表示描述的剩余部分的文本单词，这些单词从语言模型提取，该语言模型与从语言模型中获得的默认哨兵区域相关联。综上，我们的方法分为两个阶段，首先最大化生成句子模板的概率，自动生成一个模板，用占位符—slot—表示视觉单词的位置。其次，以真值区域与目标检测器识别的类别信息为条件，最大化视觉单词的概率。

生成描述模板。使用预训练的Faster R-CNN网络获取候选区域，使用RNN生成描述模板。在每个时间步骤，。在训练期间，是真值描述的形符，测试期间是采样的形符。解码器由基于注意力的LSTM层组成，接收卷积特征图。为了生成视觉单词的“槽”，使用一个指示网络在真值区域上建模一个基于内容的注意力机制。令是的区域特征，基于Faster R-CNN计算所得。如下计算指示向量：

, , 是需要学习的参数。

由于文本单词没有与图像中的特定区域关联，受自适应注意力的启发，设置一个视觉哨兵作为潜在变量，作为文本单词的虚拟接地。这是视觉哨兵可以看作是解码器已知的关于图像的信息的潜在表示。文本单词的概率为：

接下来介绍图和计算视觉哨兵，然后介绍怎样基于视觉哨兵决定文本。

根据自适应注意力，当解码器是一个LSTM时，由以下获得视觉哨兵:

，是LSTM在t时刻的输入，是应用于内存单元的门。则在接地区域包括视觉哨兵的概率为：

是参数。与和前面出现的是相同的参数。则，

,,d是隐藏状态大小，V是文本词汇表大小，将与代入就能得到生成模板中的一个文本单词的概率。

描述细化：填充“槽”。为了适应语言学的变化，我们模型中的是类别名称的细化，考虑单复数形式和更细粒度的分类两个方面，用两个单层MLP和ReLU激活函数计算：

是权重参数，是与类别名称相关的k个细粒度单词的glove嵌入向量。

给定目标真值描述，参数为的图像描述模型，目标函数最小化交叉熵损失为：

表示指示函数，当yt*为文本单词时置为1。分别表示单复数和细粒度类别。r表示t时刻视觉单词的目标接地区域。

为了验证模型能生成新对象的描述，作者重新划分了一个鲁棒的数据集分片。将COCO数据集的train和val重新组合，使得训练中共现的对象与测试时共现的对象不同，即模型将遇到包含已知对象但对象是新的组合方式的图像。

王权大宝

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《Neural Baby Talk》笔记

cvpr 2018大多数图像描述的方法可以分类两类，经典的槽填充和现代神经描述方法。《Neural Baby Talk》协调了这两种方法，首先生成一个句子模板，这个模板的插槽位置明确的与特定的图像区域相关联。这些插槽随后由被对象检测器在区域中识别出来的视觉概念填充。整个模型有两个阶段，是端到端可区分的。尽管现在图像描述的方法加入了注意力，但这些方法仍然缺少视觉基础，没有将命名的概念与图...
复制链接

扫一扫