《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读笔记

最新推荐文章于 2022-04-03 13:36:14 发布

SCUT_AUTO143

最新推荐文章于 2022-04-03 13:36:14 发布

阅读量753

点赞数

分类专栏： image caption论文阅读文章标签： image caption Deep Compositional Captioning

本文链接：https://blog.csdn.net/SCUT_AUTO143/article/details/88319643

版权

image caption论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

《From Captions to Visual Concepts and Back》在论文提到了一种新的image caption方法，visual detector、language model、multimodel similarity model，在近两年的caption论文很多都采用了这种思路。今天阅读的论文在此基础上，提出了Deep Compositional Captioning（DCC）用于解决 paired image-sentence datasets不存在的新对象描述的任务。

一、介绍

这部分解释DCC为什么是Compositional，因为它可以通过将new object与paired image-sentence datasets中已经看到的语言表达相结合，无缝地构建关于new object的句子。下图展示了DCC网络工作的一个实例，otter是一个new object，DCC也可以生成对应的image caption，而传统的image caption模型则不能生成正确的结果。

DCC有两个核心的设计。

1.独立的lexical classifer（词汇检测器）、language model，这两部分分别在unpaired image、unpaired text data上预训练，预训练好了，再结合起来组成 caption model，caption model在paired image-sentence上训练；

2.multimodal layer，作用是将paired image-sentence中学过的已知object的信息转换到new object上

二、相关工作

提到目前已知的Deep caption方法、Zero-Shot Learning、Describing New Objects In Context

三、Deep Compositional Captioner

主要分为三步：

（1）利用unpaired data训练lexical classifer、language model

（2）将lexical classifer跟language model组合成caption model，并在paired data上训练

（3）将paired data上学到的words知识转换到未出现在paired data的new objects上

3.1 Deep Lexical Classifer

我们首先通过提取每个单词的词性来挖掘paired image-sentence中常见的concepts然后选择最常见的形容词，动词和名词。这里的concepts跟《From Captions to Visual Concepts and Back》提到的visual concepts有一点不同，不是严格的visual。除了这些concepts外，还需要加入需要描述的new object。

CNN提取的特征记做fI

3.2 Language Model

由上图可以看到，Language Model类似Sequence-to-Sequence结构，不同点是预测输出用到的特征是输入单词的embedding跟LSTM的隐状态的组合，记做fL

3.3Caption Model

由fI跟fL，进一步得到预测的输出单词

这里，有一点需要注意，WI仅仅用paired image-sentence训练，而WL在Language Model这一步先做预训练，然后在Caption Model 训练中用paired image-sentence 微调

3.4 Transferring Information Between Objects

方法一：Direct Transfer

论文举了一个例子，alpaca是一个new object，在vocabulary里语义上最接近的单词是sheep

假设sheep、alpaca在vocabulary对应的索引是 $\upsilon _s$ 、 $\upsilon _a$ ，根据预测单词计算公式，单词sheep对应的计算值为

$\large f_IW_I[:,\upsilon _s]+f_LW_L[:,\upsilon _s]+b[\upsilon _s]$

类似地，单词alpaca对应的计算值为

$\large $$f_IW_I[:,\upsilon _a]+f_LW_L[:,\upsilon _a]+b[\upsilon _a]$$$

为了像生成包含单词sheep的句子那样生成包含alpaca的句子，首先将 $W_I[:,\upsilon _s]$ 、 $W_L[:,\upsilon _s]$ 、 $\large b[\upsilon _s]$ 直接传递到 $W_I[:,\upsilon _a]$ 、 $W_L[:,\upsilon _a]$ 、 $\large b[\upsilon _a]$ ，我们期望单词sheep的预测高度依赖于图像中存在sheep的可能性。由于检测到sheep时单词sheep对应的概率最大，fI里对应sheep这一类别的索引值应该主要决定了输出值。为了保证检测到alpaca时单词alpaca对应概率也最大，令

$\large r_a$ 、 $\large r_s$ 分别是alpace、sheep在 $\large f_I$ 中对应的类别索引。上面的操作实际就是把单词sheep对应的权值转换到单词alpaca上，然后找到sheep、alpaca在 $\large f_I$ 中对应的类别索引 $\large r_s$ 、 $\large r_a$ ，再将单词sheep权值在 $\large r_s$ 的值赋值给单词alpaca权值在 $\large r_a$ 位置的值。个人理解的 $\large c_a$ 、 $\large c_s$ 就是之前提到的 $\large \upsilon _a$ 、 $\large \upsilon _s$