微软提出第一个端到端的Video Captioning方法：SWIN BERT，涨点显著！

最新推荐文章于 2023-10-11 15:39:13 发布

我爱计算机视觉

最新推荐文章于 2023-10-11 15:39:13 发布

阅读量1.8k

点赞数

文章标签：大数据算法编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/122007630

版权

微软提出的新模型SWIN BERT，首次实现端到端Transformer处理视频字幕任务，通过稀疏注意力机制在多个数据集上取得显著性能提升。模型直接从视频帧中学习，避免了传统方法中多个特征提取器的使用，能适应可变长度的视频输入，优化了时空表示和远程序列建模。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享论文『SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning』，微软提出第一个端到端的Video Captioning方法《SWIN BERT》，涨点显著！

详细信息如下：

论文链接：https://arxiv.org/abs/2111.13196
项目链接：未开源

导言：

视频字幕的标准方法是定义一个字幕生成模型，以从大量提取的密集视频特征中学习。这些特征提取器通常对以固定帧率采样的视频帧进行操作，并且通常对图像/视频理解任务进行预训练，而没有适应视频字幕数据。在这项工作中，作者提出了S WIN BERT ，这是一种基于端到端Transformer的视频字幕模型，该模型直接将视频帧patch作为输入，并输出自然语言描述。

本文的方法不是利用多个2D/3D特征提取器，而是采用视频Transformer来编码时空表示，该表示可以适应可变长度的视频输入，而无需针对不同帧率进行专门设计。基于这个模型结构，作者证明了视频字幕可以从更密集的采样视频帧中获得显著的增益。此外，为了避免连续视频帧中固有的冗余，作者提出自适应学习稀疏注意掩码，并通过更好的远程视频序列建模来优化任务特定性能的改进。通过对5个视频字幕数据集的广泛实验，作者表明S WIN BERT比以前的方法实现了全面的性能改进，通常提升幅度很大。

Motivation

视频字幕是用自然语言描述给定视频的视觉内容的任务，因此，这需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系，并生成一系列输出单词。这通常是通过基于Transformer的模型来解决的，该模型从提取的视频表示中学习，如上图所示。

具体而言，多个特征提取器，通常在图像/视频理解任务 (例如，图像分类或动作识别) 上训练，用于从密集采样的视频帧中提取2D外观特征和3D运动特征。虽然取得了不错的结果，但这些现成的特征提取程序和下游视频字幕在数据域和任务制定方面存在差

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
微软提出第一个端到端的Video Captioning方法：SWIN BERT，涨点显著！

关注公众号，发现CV技术之美本文分享论文『SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captio...
复制链接

扫一扫