O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning【论文阅读】

最新推荐文章于 2024-08-21 22:49:00 发布

hei_hei_hei_

最新推荐文章于 2024-08-21 22:49:00 发布

阅读量242

点赞数

分类专栏：论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/hei_hei_hei_/article/details/127578026

版权

27 篇文章 4 订阅

订阅专栏

发表：ACL 2021
idea：controllable video caption，可以通过限制object预测来强调caption的关注点。例如如下图片，我们希望它关注的是“超速”，而不是“a man is watch people ride down the road”。
方法：主要分三步：1）识别focus的目标并预测在caption中的位置；2）生成相关属性和关系words形成一个粗糙的caption；3）结合video information细化caption。由于object是在其他词汇之前生成的，因此无法使用word-by-word这样的自回归方式，作者使用了一种非自回归的方法
Architecture

video feature： $\oplus Linear(3D)$
basic module：Transformer decoder（TFM）。
定义object ground truth：
$o_i^*=1$ 表示标注有这个object，反之没有；M表示object词库大小；这里是controllable，可以预定义想要让caption关注的object，将其设置为1。但是我觉得实际操作难以实现。

这里MP表示mean pooling， $\in R^M$
object loss

要实现非自回归方式的预测一般都需要这一步预测输出序列长度。

$p_l \in R^{l_{max}}$ 表示概率， $l_{max}$ 表示定义的长度最大值，为30
length loss

为了实现非自回归解码，使用单层Transformer decoder+Linear+softmax。输入是fully masked sequence：在这里插入图片描述，

与object generator类似，只是输入和目标不同。

$X_1$ 是 $Y_{obj}^*$ 或 $Y_{obj}$ 在训练和测试阶段
caption loss
where
校正细调
由于非自回归的方法会存在“multi-modality problem”，例如一个单词出现在不同的位置从而形成不同的caption（没看懂）。所以作者使用前人的方法进行细化。

$X_2$ 为随机mask一定概率的 $Y_{cap}^*$ 或 $Y_1$ 在训练和测试阶段
校正损失
objective loss

在这里插入图片描述
感觉这篇文章的亮点并不在于指标，因为其实并没有SOTA。而是在于提出的O2NA允许一种简单的方法来控制视频字幕的内容，即题目中提及的controllable。

关注

专栏目录