论文阅读【Open-book Video Captioning with Retrieve-Copy-Generate Network】

最新推荐文章于 2024-07-21 21:19:53 发布

hei_hei_hei_

最新推荐文章于 2024-07-21 21:19:53 发布

阅读量404

点赞数

分类专栏：论文阅读文章标签：计算机视觉自然语言处理深度学习

本文链接：https://blog.csdn.net/hei_hei_hei_/article/details/125640148

版权

27 篇文章 4 订阅

订阅专栏

发表：CVPR 2021
idea：作者认为之前的方法由于生成caption的时候缺乏一定的指导，因此生成的caption比较单调，并且由于训练数据集是固定的，所以模型训练后学到的知识是不可扩展的。作者想到通过video-to-text检索任务，从语料库中检索句子作为caption的指导。类似开卷考试（open-domain mechanism）

在这里插入图片描述

将语料库中所有sentences通过一个textual encoder映射到d维，videos通过visual encoder映射到d维，求相似度作为选择标准标准
Textual Encoder：bi-LSTM

ps： $L$ 表示句子长度， $W_s$ 是可学习的embedding矩阵， $\eta _s$ 为LSTM的参数

将长度L的sentence聚合成一个d维的vector：
$v_s$ 是聚合参数
Visual Encoder：appearance features && motion features

$v_a,v_m$ 是聚合参数
video-to-text similarity：
最终得到k个检索出来指导的句子

通过Hierarchical Caption Decoder来生成caption，只是在每一个step通过Dynamic Multi-pointers Module决定是否要copy指导的word

由一个attention-LSTM和一个language-LSTM组成。attention-LSTM用于注意visual features用于聚合当前的状态和视觉上下文以生成词汇库的概率分布 $p_{voc}$

前提：已经得到K个候选sentences 在这里插入图片描述每个sentence有L个单词

对每个句子分别处理。将decoder中的hidden state $h^l_t$ 作为Q对句子中L个单词做attention，得到L个单词的注意力概率分布

$p_{ret,i}$ 表示第i个句子中各个单词的注意力分布权重； $c_{i,t}^r$ 表示加权后的结果。
决定是否copy选择的单词
得到最终所有词汇的概率分布（ $p_{ret}$ 被扩展， $p_{copy}$ 被广播）

关注