论文阅读【Discriminative Latent Semantic Graph for Video Captioning】

最新推荐文章于 2024-07-09 17:42:00 发布

hei_hei_hei_

最新推荐文章于 2024-07-09 17:42:00 发布

阅读量727

点赞数

分类专栏：论文阅读文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/hei_hei_hei_/article/details/125546830

版权

27 篇文章 4 订阅

订阅专栏

发表：ACM MultiMedia 2021
代码：D-LSG
idea：为了加强object-level interactions和frame-level information（其实是为了常用的处理后的特征：2D-CNN、3D-CNN、R-CNN），作者主要分为三部分主要工作：Enhanced Object Proposal：使用Graph将时空上的特征融合到 latent object中；Visual Knowledge：聚合上述特征于 latent nodes 中并用来预测 semantic words；Sentence Validation：使用GAN模型对重构的视觉特征进行判别。

常规处理，一般都会用2D-CNN提取appearance（frame-level）特征 $V^a$ ，3D-CNN提取motion特征 $V^m$ ，R-CNN提取region（object）特征 $R$

将 region feature 分别聚合到 motion feature 和 appearance feature 中。使用GNN将每个region feature都视为一个node。

根据公式强行解释： $v^a$ 与所有region feature都有边相连，所以聚合了所有region feature的特征

这里 $Ψ$ 和 $Φ$ 都是Linear function之后跟了一个Tanh激活。 $\hat v_t^m$ 的计算类似

主要是在Graph引入了一些新的节点（latent nodes），聚合上述信息分别生成K个候选object visual words和K个motion visual words（计算类似）

为了让生成的caption具有更好的语义方面的信息（semantic concepts）。作者通过从生成的captions重构 $P^o$ 和 $P^m$ ，然后通过一个判别器进行判别重构的视觉特征 $\hat P^o，\hat P^m$ 和真实的征 $P^o， P^m$ 。
具体实现是将生成的caption通过一些1D CNN+残差的层得到sentence feature $S$ ，然后让 $P^o$ “聚合” $S$ 的特征
给生成的视觉特征 $\hat P^o$ 和真实的视觉特征 $P^o$ 打分，将其视为一个pair，类似于计算他们的相似性
判别式模型的输出分数（学习给生成特征低分，真实特征高分）
判别式模型Loss（后者是正则化项）
生成式模型的损失

关注