这篇论文提出使用组成推理模块完成Video captioning任务。一般的encoder-decoder框架是将视频特征编码,然后使用RNN变体解码,这解码的过程必须存在推理过程,然而,在每一时刻生成描述的时候是注意到了视频的哪一部分特征,这对我们来说是黑盒,所以这篇论文提出了一个显式的推理模块。
首先对视频提取特征,分别是Va(外观特征),Vo(目标特征),Vm(动作特征),ht en是前t-1时刻的描述的LSTM的编码,推理部分由三个模块组成,当模型要生成一句这样的描述时:一个人在打篮球,首先这个模型需要定位到这个人,然后有一个功能词(a、is等),然后注意到“打篮球”这个动作。
LOCATE模块:生成视觉词汇需要模型在空间和时间上都关注一个特定的区域。因此,先为对象特征Vo应用一个空间上的注意(AoS),然后与Va一起应用一个时间上的注意(AoT)。
RELATE模块:行动建模需要空间和时间上的推理。比如若要生成投篮这个词,必须意识到这个人正在拿着篮球,然后注意到篮球正在飞向篮筐,最后可以推断这个人正在投篮。这意味着必须把两个不同时间的场景联系起来。为了实现这种推理机制,在AoS和AoT之间正式地插入一对交互(即连接两个张量的每一对)。
FUNC模块:生成功能词,C是DeLSTM中的隐藏状态向量。
有了这三个模块中之后就能顺序地进行生成描述的推理,首先计算每个模块在当前时刻被选中的分数(与前t-1时刻生成的描述的隐藏状态向量计算得分),然后选择该模块的特征进行解码,但这个选择的过程是离散的,文章中使用Gumbel采样将离散过程可微,这样它才能在网络中向前或向后传播。
Learning to Discretely Compose Reasoning Module Networks for Video Captioning阅读笔记
最新推荐文章于 2024-11-06 20:38:13 发布
这篇论文介绍了一种用于Videocaptioning任务的新型模型,通过引入显式的推理模块来增强encoder-decoder框架。模型通过定位(LOCATE)、关系推理(RELATE)和功能词生成(FUNC)模块,逐步解析视频内容并生成描述。推理过程包括空间和时间的注意机制以及Gumbel采样实现的离散选择过程,使得整个模型的训练可微。这种方法提高了视频理解的透明度和准确性。
摘要由CSDN通过智能技术生成