Learning to Discretely Compose Reasoning Module Networks for Video Captioning阅读笔记

最新推荐文章于 2025-04-05 17:46:06 发布

今天不标数据的小wu

最新推荐文章于 2025-04-05 17:46:06 发布

阅读量411

点赞数

分类专栏：视频摘要文章标签：深度学习

本文链接：https://blog.csdn.net/qq_42316533/article/details/117190780

版权

视频摘要专栏收录该内容

7 篇文章

订阅专栏

在这里插入图片描述
这篇论文提出使用组成推理模块完成Video captioning任务。一般的encoder-decoder框架是将视频特征编码，然后使用RNN变体解码，这解码的过程必须存在推理过程，然而，在每一时刻生成描述的时候是注意到了视频的哪一部分特征，这对我们来说是黑盒，所以这篇论文提出了一个显式的推理模块。
首先对视频提取特征，分别是Va（外观特征），Vo（目标特征），Vm（动作特征），ht en是前t-1时刻的描述的LSTM的编码，推理部分由三个模块组成，当模型要生成一句这样的描述时：一个人在打篮球，首先这个模型需要定位到这个人，然后有一个功能词（a、is等），然后注意到“打篮球”这个动作。
LOCATE模块：生成视觉词汇需要模型在空间和时间上都关注一个特定的区域。因此，先为对象特征Vo应用一个空间上的注意(AoS)，然后与Va一起应用一个时间上的注意(AoT)。
RELATE模块：行动建模需要空间和时间上的推理。比如若要生成投篮这个词，必须意识到这个人正在拿着篮球，然后注意到篮球正在飞向篮筐，最后可以推断这个人正在投篮。这意味着必须把两个不同时间的场景联系起来。为了实现这种推理机制，在AoS和AoT之间正式地插入一对交互(即连接两个张量的每一对)。
FUNC模块：生成功能词，C是DeLSTM中的隐藏状态向量。
有了这三个模块中之后就能顺序地进行生成描述的推理，首先计算每个模块在当前时刻被选中的分数（与前t-1时刻生成的描述的隐藏状态向量计算得分），然后选择该模块的特征进行解码，但这个选择的过程是离散的，文章中使用Gumbel采样将离散过程可微，这样它才能在网络中向前或向后传播。