《Neural Baby Talk》笔记

cvpr 2018

大多数图像描述的方法可以分类两类,经典的槽填充和现代神经描述方法。《Neural Baby Talk》协调了这两种方法,首先生成一个句子模板,这个模板的插槽位置明确的与特定的图像区域相关联。这些插槽随后由被对象检测器在区域中识别出来的视觉概念填充。整个模型有两个阶段,是端到端可区分的。

尽管现在图像描述的方法加入了注意力,但这些方法仍然缺少视觉基础,没有将命名的概念与图像中的像素相关联。他们倾向于“看”与人类关注点不同的区域,并且倾向于从训练数据中复制描述。作者认为语言模型并不一定是必要的,生成的描述应该更多依赖于对象检测器检测到的实体,而不是根据语言环境推测物体。作者主要的技术贡献是一个新的用于真值图像描述的神经解码器。在每个时间步骤,模型决定是生成一个文本单词还是视觉单词。视觉单词本质上是一个形符,它将支撑用于描述图像中特定区域的单词的槽。

给定图像,我们的任务是生成真值视觉描述。设表示从图像中提取的N个区域集合。当我们要生成一个描述中的实体单词时,我们需要把这个单词与特定的相关联。根据标准有监督学习范例,我们通过最大化正确描述的概率来学习参数

根据链式法则,联合概率分布可以在形符序列上分解:

引入表示与t对应的真值区域,则:

有两种的形式表示与中的一个特定区域接地的视觉单词,表示描述的剩余部分的文本单词,这些单词从语言模型提取,该语言模型与从语言模型中获得的默认哨兵区域相关联。综上,我们的方法分为两个阶段,首先最大化生成句子模板的概率,自动生成一个模板,用占位符—slot—表示视觉单词的位置。其次,以真值区域与目标检测器识别的类别信息为条件,最大化视觉单词的概率。

生成描述模板。使用预训练的Faster R-CNN网络获取候选区域,使用RNN生成描述模板。在每个时间步骤,。在训练期间,是真值描述的形符,测试期间是采样的形符。解码器由基于注意力的LSTM层组成,接收卷积特征图。为了生成视觉单词的“槽”,使用一个指示网络在真值区域上建模一个基于内容的注意力机制。令的区域特征,基于Faster R-CNN计算所得。如下计算指示向量:

, , 是需要学习的参数。

由于文本单词没有与图像中的特定区域关联,受自适应注意力的启发,设置一个视觉哨兵作为潜在变量,作为文本单词的虚拟接地。这是视觉哨兵可以看作是解码器已知的关于图像的信息的潜在表示。文本单词的概率为:

接下来介绍图和计算视觉哨兵,然后介绍怎样基于视觉哨兵决定文本。

根据自适应注意力,当解码器是一个LSTM时,由以下获得视觉哨兵:

是LSTM在t时刻的输入,是应用于内存单元的门。则在接地区域包括视觉哨兵的概率为:

是参数。和前面出现的是相同的参数。则,

,,d是隐藏状态大小,V是文本词汇表大小,将代入  就能得到生成模板中的一个文本单词的概率。

描述细化:填充“槽”。为了适应语言学的变化,我们模型中的是类别名称的细化,考虑单复数形式和更细粒度的分类两个方面,用两个单层MLP和ReLU激活函数计算:

是权重参数,是与类别名称相关的k个细粒度单词的glove嵌入向量。

给定目标真值描述,参数为的图像描述模型,目标函数最小化交叉熵损失为:

表示指示函数,当yt*为文本单词时置为1。分别表示单复数和细粒度类别。r表示t时刻视觉单词的目标接地区域。

为了验证模型能生成新对象的描述,作者重新划分了一个鲁棒的数据集分片。将COCO数据集的train和val重新组合,使得训练中共现的对象与测试时共现的对象不同,即模型将遇到包含已知对象但对象是新的组合方式的图像。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值