Understanding Objects in Video：Object-Oriented Video Captioning via Structure and Adversarial Learn

最新推荐文章于 2024-10-05 19:19:55 发布

今天不标数据的小wu

最新推荐文章于 2024-10-05 19:19:55 发布

阅读量117

点赞数 1

分类专栏：视频摘要文章标签：深度学习

本文链接：https://blog.csdn.net/qq_42316533/article/details/117190851

版权

视频摘要专栏收录该内容

7 篇文章 3 订阅

订阅专栏

该文提出了一种面向对象的视频字幕生成方法，利用MaskTrackRCNN进行对象检测和定位，结合全局和局部特征，以及对象属性探测器生成详细描述。通过添加对抗生成网络来约束描述的准确性，确保生成的字幕与视频对象匹配。这种方法旨在提高视频内容理解的精确度。

摘要由CSDN通过智能技术生成

在这里插入图片描述
这篇文章与其他video captioning不同的是：这是面向对象的video captioning，它旨在对视频中的每一个对象都生成描述。
首先，使用MackTrackRCNN去生成每个对象按时间顺序出现的视频帧，以及这个对象在这些帧中出现的空间位置，并将其与整个视频通过backbone提取特征全局特征和局部特征。C是外观信息，B是空间位置。因为面向对象的video captioning与一般的video captioning相比，它更需要将关于对象的描述更细致，于是这篇文章加了关于属性探测的模型来生成关于属性的描述。属性探测器就是加了attention的简单的多分类器，并将其得到的属性标签（A）与全局、局部、C、B特征拼接在一起输入到LSTM中进行解码。
为了更好地训练（论文中是这样说的），文章中害提出了生成对抗模型，但因为生成对抗网络不适合处理文本生成任务（因为文本不像图像是连续的，离散的文本不可微，无法进行梯度传播），所以在生成描述之后提取描述的语义信息（object、movement等）与前面生成的Object局部特征拼接在一起，使用一个分类器判断它们是不是匹配的，也就是生成的描述是不是关于该对象的描述，以此做一个约束。