微软提出第一个端到端的Video Captioning方法:SWIN BERT,涨点显著!

微软提出的新模型SWIN BERT,首次实现端到端Transformer处理视频字幕任务,通过稀疏注意力机制在多个数据集上取得显著性能提升。模型直接从视频帧中学习,避免了传统方法中多个特征提取器的使用,能适应可变长度的视频输入,优化了时空表示和远程序列建模。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文分享论文『SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning』,微软提出第一个端到端的Video Captioning方法《SWIN BERT》,涨点显著!

详细信息如下:

e15dbc600c55d6cbb1eb9ed53ab6be0c.png

  • 论文链接:https://arxiv.org/abs/2111.13196

  • 项目链接:未开源

导言:

f51bbd8c63380f61971ab769daa81509.png

视频字幕的标准方法是定义一个字幕生成模型,以从大量提取的密集视频特征中学习。这些特征提取器通常对以固定帧率采样的视频帧进行操作,并且通常对图像/视频理解任务进行预训练,而没有适应视频字幕数据。在这项工作中,作者提出了S WIN BERT ,这是一种基于端到端Transformer的视频字幕模型,该模型直接将视频帧patch作为输入,并输出自然语言描述。

本文的方法不是利用多个2D/3D特征提取器,而是采用视频Transformer来编码时空表示,该表示可以适应可变长度的视频输入,而无需针对不同帧率进行专门设计。基于这个模型结构,作者证明了视频字幕可以从更密集的采样视频帧中获得显著的增益。此外,为了避免连续视频帧中固有的冗余,作者提出自适应学习稀疏注意掩码,并通过更好的远程视频序列建模来优化任务特定性能的改进。通过对5个视频字幕数据集的广泛实验,作者表明S WIN BERT比以前的方法实现了全面的性能改进,通常提升幅度很大。


      01      

Motivation

62d46c984e24e87b0840cb97ac98f027.png

视频字幕是用自然语言描述给定视频的视觉内容的任务,因此,这需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系,并生成一系列输出单词。这通常是通过基于Transformer的模型来解决的,该模型从提取的视频表示中学习 ,如上图所示。

具体而言,多个特征提取器,通常在图像/视频理解任务 (例如,图像分类或动作识别) 上训练,用于从密集采样的视频帧中提取2D外观特征和3D运动特征。虽然取得了不错的结果,但这些现成的特征提取程序和下游视频字幕在数据域和任务制定方面存在差

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值