Dence Video Caption方向论文整理(持续更新)(转载标明出处)

What:

什么是密集视频描述?借用一批论文中的描述:

Dense video captioning aims to localize and describe events for storytelling in untrimmed videos.

密集视频描述要在 长时间 未裁剪的视频上定位重叠事件 对事件进行描述

这是一个非常复杂的问题,因为这个问题:

1、涉及到多模态

2、从模型整体来说,有分布式模型也有端到端模型,各自有各自的优缺点

3、(无论模型整体分布式模型还是端到端模型)功能模块多,系统层次深,如何组合各个模块协同工作

4、模块内部架构的选择也是一个问题

(解释一下2:模块包括大模块和小模块,自顶向下分先是编码器模块,解码器模块,编码器包括两部分,一个是帧级编码器,一个是事件级编码器,解码器模块可以采用LSTM和Transformer的Decoder+FNN的标准输出)

Why:

对密集视频理解的研究可以:

  1. 提升视频理解的深度:传统的视频理解往往只是对整个视频进行概括性的描述,而密集视频描述可以对视频中每个重要的时间片段进行描述,从而更深入地理解视频内容。

  2. 丰富视频检索与浏览体验:通过为视频中每个时间片段生成描述性文本,可以提高视频检索的准确性和效率,同时也可以为用户提供更加丰富和有趣的视频浏览体验。

  3. 推动视频内容分析与应用:密集视频描述可以为视频内容分析提供更多的信息和线索,有助于视频内容的自动标注、分类、检索等任务,从而推动视频应用领域的发展。

  4. 促进多模态研究与跨媒体理解:密集视频描述需要结合视频内容和自然语言生成技术,促进了多模态研究的发展,有助于实现视频与文本之间的跨媒体理解。

  5. 推动人工智能与机器学习发展:密集视频描述是一个复杂的跨领域问题,需要结合计算机视觉、自然语言处理等多个领域的技术,推动人工智能和机器学习在视频理解领域的发展和应用。

  6. 视频辅助理解和可访问性:对于听觉或视觉障碍的人群,通过为视频生成密集的描述文本,可以帮助他们更好地理解视频内容,提高视频的可访问性。

Challenge:

Dence Video Caption之所以结构复杂是因为要解决的问题太多,下面列出Dence Video Caption主要要解决的问题,面临的主要挑战:

对于Encoder模块:

1.事件识别任务(事件长短不同,重叠事件的识别)

2.事件定位任务(要先准确的识别才能进行生成,在重叠时间的情况下比较重要,要不分不清是先发生的还是后发生的)

3.后来还发展出了特征对齐(LHM),谓语对齐,动词对齐,句子对齐的任务,虽然其目标是从生成的句子上更匹配ground truth,(可以理解为从Decoder角度)但是着还是需要从Encoder上付出努力

对于Decoder模块:

1.架构选择(LSTM还是Transformer Decoder+FNN+Softmax?)

2.事件描述任务的准确问题(不同的句子顺序语义相同的情况,不同的评价标准如何同时保持高效)

对于整体模型:

1、待检测视频长度的问题(处理长视频的效率问题)

2、端到端模型如何更有效率并且更具可解释性

3、如何提出新的网络架构子架构来提高效率

4、如何在保证模型准确度的情况下简化模型?

主流Model架构:

Video Caption包含多方面的技术

1、Video representation learning(Video Encoder)包含两个方面

  • 视频的空间特征与视频的时序特征的提取(空间特征base Encoder——C3D,I3D,TSP,Clip,Alpha-Clip,)(时序特征:LSTM,Transformer Encoder)C3D,I3D,TSP这些特征是已有论文的输入特征,而Clip以及Alpha-Clip将图像特征中融入了语义特征,可能会带来更好的效果
  • 事件特征提取,要从base video representation中学习event proposal represention,这是主要要解决的问题,(现有的工作有DAPs,Bi-SST)需要构建优秀的编码器(鉴于DETR在物体识别上的出色能力,以往技术主要基于DETR以及DeformableDETR)其中要注意event要识别对事件正确的数量,找到事件正确的边界,生成好的(语义视频)特征,这些辅助机构需要其他模块来完成,近期又有相关工作对特征和文本成分进行对其,目的为了输出更加符合真值的文件,其方法具体来说也是在编码器处做文章

2、Representation Decoder(Caption Head)这部分用于对event proposal represention进行解码,其生成的文字序列又直接影响到损失值得计算来控制反向传播,所以也是一个可以提升得部分

Dataset(数据集说明会单出)

1、MSR-VTT

2、MSVD

3、Howto100M

4、ActivityNet Caption

5、YouCook2

6、VITT

7、...

国内外主要研究进展:(持续更新)

分布式模型正在逐渐被端到端模型所取代,这里我主要整理端到端模型:

论文名称模型名称简介
Dense-Captioning Events in Videos(2017)DAPS变体

开山之作,阐述了对于视频的的处理不但要关注空间特征还要关注时序特征,对于Caption任务还要关注时间级别的特征

对于事件级别的特征定位它是基于DAPs: Deep Action Proposals for Action Understanding这篇文章

Step by Step: A Gradual Approach for Dense Video Captioning(2023)SBS很细致的分布式Dence Video Caption的工作,功能组件很多很全,包括事件边界模块和事件定位模块,以及事件计数模块,在事件特征层面上的工作做的很全了,唯一缺点没有公布代码,无法复现结果
CLIP4Caption: CLIP for Video Caption(2021)Clip4Caption1、    本文提出了一个Clip4Caption框架(基于 CLIP 增强的视频文本匹配网络 (VTM) )来提升视频描述任务的效果,
2、    该框架充分利用了视觉和语言的信息,并强制模型学习强文本相关的视频特征来生成文本生成。(这里能体现出Clip的思想)
3、    利用Uni-VL 的权重,同时大大简化了其结构以更好地拟合视频字幕任务。
4、    此外,与大多数使用 LSTM 或 GRU 作为句子解码器的现有模型不同,我们采用 Transformer 结构化解码器网络来有效地学习远程视觉和语言依赖性。
5、    此外,我们引入了一种新的字幕任务集成策略。 
 
Multi-modal Dense Video Captioning(2020)MDVC

一个是将Transformer架构用于Dence Video Caption,摒弃了原始固定句子模式填词的生成模式,转为Encoder-Decoder的生成模式。一个是将多模态的思想用于Dence Video Caption,整合不同模态的信息帮助输出从结果上说,当时他的效果还是不错的,但现在已经在出现PDVC,GVL,Vid2Seq以及阿里大模型之后以后MDVC在结果上已经不够看了,但是他的思想是好的。

单纯用Transformer来进行时序建模从现在来看有点吃不消

论文中这个事件proposal的生成写的很不明确,如何应用也写的不明确,虽然代码开源,但鉴于其已经过时,不太值得一看

End-to-End Dense Video Captioning With Parallel Decoding(2021)PDVC

并行解码的端到端视频描述

全文最核心的一句话:通过这样做,PDVC旨在直接利用特征级的任务间关联。

PDVC的突出优点以及贡献:

  1. 端到端

(2) PDVC不依赖启发式非极大值抑制或循环事件序列选择网络来去除冗余,直接产生大小合适的事件集;

(3)与采用两阶段方案相比,我们将增强的事件查询表示并行馈送到定位头和标题头,通过优化使这两个子任务深度关联和相互促进;

(4)提出了event counter计数器

(5)ActivityNet CaptionsYouCook2上的大量实验表明,PDVC能够产生高质量的字幕结果,在定位精度与两阶段方法相当的情况下,超过了最先进的两阶段方法。

Parallel Pathway Dense Video Captioning With Deformable Transformer(2022)PPVC

PDVC采用先提特征再将提取后的特征并行解码用于时间定位和文字生成

              本文作者说这种方法有可能会在分支点带来信息瓶颈的风险,就是说,这种架构虽然避免了先定位再生成的这种序列结构,但是仍然保持这先编码再解码这种架构,编码器(Deformable Tranformer)可能会漏掉一些细节信息(这些细节信息用于时间生成和描述生成),所以对于长视频,生成的事件数少,生成的描述也缺乏细节(由于这种原因,即使PDVC提出了记数模块,计数模块的输出值也会比真实值低),再一个,如果生成特征的质量不好,也会传到后续的定位和生成模块。

GVLwait
Vid2Seq

wait

Learning Hierarchical Modular Networks for Video Captioning(2024)HMN为了提高生成效果,反向优化Encoder,进行了四个级别的特征对齐,包括主语特征对齐,谓词特征对齐,动词特征对齐,整句话级别的特征对齐。缺点模型复杂,不是密集视频,迁移有难度
...

  • 18
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值