复旦&西湖&Meta AI等提出GL-RG，建模"视频字幕"全局-局部表示粒度！SOTA！（IJCAI 2022）...

最新推荐文章于 2023-10-11 15:39:13 发布

我爱计算机视觉

最新推荐文章于 2023-10-11 15:39:13 发布

阅读量243

点赞数

文章标签：大数据算法编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/125270611

版权

复旦、西湖及Meta AI等机构在IJCAI 2022提出GL-RG模型，针对视频字幕任务建模全局-局部表示粒度，取得SOTA成果。GL-RG模型包括全局-局部编码器，通过长、短程和局部关键帧编码捕捉视频内容，结合增量训练策略提升性能。已在MSR-VTT和MSVD数据集上验证其优势。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享 IJCAI 2022 的一篇论文『GL-RG: Global-Local Representation Granularity for Video Captioning』，由复旦&西湖&Meta AI等研究机构提出GL-RG模型，建模Video Captioning的全局-局部表示粒度！SOTA代码已开源！

详细信息如下：

论文链接：https://arxiv.org/abs/2205.10706
项目链接：https://github.com/ylqi/GL-RG

摘要

视频字幕（Video captioning）是一项具有挑战性的任务，因为它需要将视觉理解准确地转换为自然语言描述。到目前为止，最先进的方法无法充分模拟视频帧中的全局-局部表示以生成字幕，因此还有很大的改进空间。

在这项工作中，作者从一个新的角度来处理视频字幕任务，并提出了一个用于视频字幕的GL-RG框架，即全局-局部表示粒度。与之前的工作相比，本文的GL-RG显示出三个优势：1）作者明确地利用来自不同视频范围的广泛视觉表示来改进语言表达；2）作者设计了一种新的全局编码器来产生丰富的语义词汇，以获得跨帧视频内容的描述粒度；3）作者开发了一种增量训练策略，该策略以增量方式组织模型学习，以产生最佳字幕。

在具有挑战性的MSR-VTT和MSVD数据集上的实验结果表明，本文的DL-RG比最新的方法有显著的优势。

Motivation

视频字幕（Video captioning）具有很大的社会相关性，在许多现实世界的应用中都有价值，包括字幕生成、盲人辅助和自动驾驶仪叙事。然而，孤立的视频帧可能会出现运动模糊或遮挡，这会给字幕任务的视觉理解带来很大的混乱。因此，迫切需要回答一个主要问题：如何利用好视频中的跨帧连贯性和单帧信息来缩小视觉理解与语言表达之间的差距？

尽管取得了重大进展，但现有的视频字幕方法无法充分捕捉局部和全局表现。各种研究将深度神经网络应用于原始像素，以建立更高层次的联系。这些方法侧重于局部对象特征，但忽略了对象变换或交互。对局部对象特征进行建模是视频字幕的一种原始解决方案，因为帧之间的时间连接没有仔细研究。

为了研究全局-局部相关性问题，其他相关视觉任务利用图神经网络（GNNs）的图表示。然而，实验结果表明，目前视频字幕中使用图表示全局-局部相关性是次优的，因为它在训练中经常遇到过度平滑问题，导致推理过程中的结果较弱。许多视频字幕方法直观地利用多模态融合（即视觉或音频特征）来丰富预测中的特征表示。然而，这些简单的方法无法充分利用多模态特征，难以跨模态执行联合优化，留下了很大的改进空间。