《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读笔记

《From Captions to Visual Concepts and Back》在论文提到了一种新的image caption方法,visual detector、language model、multimodel similarity model,在近两年的caption论文很多都采用了这种思路。今天阅读的论文在此基础上,提出了Deep Compositional Captioning(DCC)用于解决 paired image-sentence datasets不存在的新对象描述的任务。

一、介绍

这部分解释DCC为什么是Compositional,因为它可以通过将new object与paired image-sentence datasets中已经看到的语言表达相结合,无缝地构建关于new object的句子。下图展示了DCC网络工作的一个实例,otter是一个new object,DCC也可以生成对应的image caption,而传统的image caption模型则不能生成正确的结果。

 

 DCC有两个核心的设计。

1.独立的lexical classifer(词汇检测器)、language model,这两部分分别在unpaired image、unpaired text data上预训练,预训练好了,再结合起来组成 caption model,caption model在paired image-sentence上训练;

2.multimodal layer,作用是将paired image-sentence中学过的已知object的信息转换到new object上

二、相关工作

提到目前已知的Deep caption方法、Zero-Shot Learning、Describing New Objects In Context

三、Deep Compositional Captioner

主要分为三步:

(1)利用unpaired data训练lexical classifer、language model

(2)将lexical classifer跟language model组合成caption model,并在paired data上训练

(3)将paired data上学到的words知识转换到未出现在paired data的new objects上

3.1 Deep Lexical Classifer

我们首先通过提取每个单词的词性来挖掘paired image-sentence中常见的concepts然后选择最常见的形容词,动词和名词。这里的concepts跟《From Captions to Visual Concepts and Back》提到的visual concepts有一点不同,不是严格的visual。除了这些concepts外,还需要加入需要描述的new object。

CNN提取的特征记做fI

3.2 Language Model

由上图可以看到,Language Model类似Sequence-to-Sequence结构,不同点是预测输出用到的特征是输入单词的embedding跟LSTM的隐状态的组合,记做fL

3.3Caption Model

由fI跟fL,进一步得到预测的输出单词

这里,有一点需要注意,WI仅仅用paired image-sentence训练,而WL在Language Model这一步先做预训练,然后在Caption Model 训练中用paired image-sentence 微调

3.4 Transferring Information Between Objects

方法一:Direct Transfer

 论文举了一个例子,alpaca是一个new object,在vocabulary里语义上最接近的单词是sheep

假设sheep、alpaca在vocabulary对应的索引是\upsilon _s\upsilon _a,根据预测单词计算公式,单词sheep对应的计算值为

\large f_IW_I[:,\upsilon _s]+f_LW_L[:,\upsilon _s]+b[\upsilon _s]

类似地,单词alpaca对应的计算值为

\large $$f_IW_I[:,\upsilon _a]+f_LW_L[:,\upsilon _a]+b[\upsilon _a]$$ 

为了像生成包含单词sheep的句子那样生成包含alpaca的句子,首先将W_I[:,\upsilon _s]W_L[:,\upsilon _s]\large b[\upsilon _s]直接传递到W_I[:,\upsilon _a]W_L[:,\upsilon _a]\large b[\upsilon _a],我们期望单词sheep的预测高度依赖于图像中存在sheep的可能性。由于检测到sheep时单词sheep对应的概率最大,fI里对应sheep这一类别的索引值应该主要决定了输出值。为了保证检测到alpaca时单词alpaca对应概率也最大,令

 \large r_a\large r_s分别是alpace、sheep在\large f_I中对应的类别索引。上面的操作实际就是把单词sheep对应的权值转换到单词alpaca上,然后找到sheep、alpaca在\large f_I中对应的类别索引\large r_s\large r_a,再将单词sheep权值在\large r_s的值赋值给单词alpaca权值在\large r_a位置的值。个人理解的\large c_a\large c_s就是之前提到的\large \upsilon _a\large \upsilon _s

方法二:Delta Transfer

首先定义一个单词的

相关符号解释:

 

 然后根据语义相似性:

上述两种方法都依赖于语义相似性,因此,检测new object跟 paired image-sentence中单词的语义相似性是转换权值的核心

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值