What:
什么是密集视频描述?借用一批论文中的描述:
Dense video captioning aims to localize and describe events for storytelling in untrimmed videos.
密集视频描述要在 长时间 未裁剪的视频上定位重叠事件 对事件进行描述
这是一个非常复杂的问题,因为这个问题:
1、涉及到多模态
2、从模型整体来说,有分布式模型也有端到端模型,各自有各自的优缺点
3、(无论模型整体分布式模型还是端到端模型)功能模块多,系统层次深,如何组合各个模块协同工作
4、模块内部架构的选择也是一个问题
(解释一下2:模块包括大模块和小模块,自顶向下分先是编码器模块,解码器模块,编码器包括两部分,一个是帧级编码器,一个是事件级编码器,解码器模块可以采用LSTM和Transformer的Decoder+FNN的标准输出)
Why:
对密集视频理解的研究可以:
-
提升视频理解的深度:传统的视频理解往往只是对整个视频进行概括性的描述,而密集视频描述可以对视频中每个重要的时间片段进行描述,从而更深入地理解视频内容。
-
丰富视频检索与浏览体验:通过为视频中每个时间片段生成描述性文本,可以提高视频检索的准确性和效率,同时也可以为用户提供更加丰富和有趣的视频浏览体验。
-
推动视频内容分析与应用:密集视频描述可以为视频内容分析提供更多的信息和线索,有助于视频内容的自动标注、分类、检索等任务,从而推动视频应用领域的发展。
-
促进多模态研究与跨媒体理解:密集视频描述需要结合视频内容和自然语言生成技术,促进了多模态研究的发展,有助于实现视频与文本之间的跨媒体理解。
-
推动人工智能与机器学习发展:密集视频描述是一个复杂的跨领域问题,需要结合计算机视觉、自然语言处理等多个领域的技术,推动人工智能和机器学习在视频理解领域的发展和应用。
-
视频辅助理解和可访问性:对于听觉或视觉障碍的人群,通过为视频生成密集的描述文本,可以帮助他们更好地理解视频内容,提高视频的可访问性。
Challenge:
Dence Video Caption之所以结构复杂是因为要解决的问题太多,下面列出Dence Video Caption主要要解决的问题,面临的主要挑战:
对于Encoder模块:
1.事件识别任务(事件长短不同,重叠事件的识别)
2.事件定位任务(要先准确的识别才能进行生成,在重叠时间的情况下比较重要,要不分不清是先发生的还是后发生的)
3.后来还发展出了特征对齐(LHM),谓语对齐,动词对齐,句子对齐的任务,虽然其目标是从生成的句子上更匹配ground truth,(可以理解为从Decoder角度)但是着还是需要从Encoder上付出努力
对于Decoder模块:
1.架构选择(LSTM还是Transformer Decoder+FNN+Softmax?)
2.事件描述任务的准确问题(不同的句子顺序语义相同的情况,不同的评价标准如何同时保持高效)
对于整体模型:
1、待检测视频长度的问题(处理长视频的效率问题)
2、端到端模型如何更有效率并且更具可解释性
3、如何提出新的网络架构或子架构来提高效率
4、如何在保证模型准确度的情况下简化模型?
主流Model架构:
Video Caption包含多方面的技术
1、Video representation learning(Video Encoder)包含两个方面
- 视频的空间特征与视频的时序特征的提取(空间特征base Encoder——C3D,I3D,TSP,Clip,Alpha-Clip,)(时序特征:LSTM,Transformer Encoder)C3D,I3D,TSP这些特征是已有论文的输入特征,而Clip以及Alpha-Clip将图像特征中融入了语义特征,可能会带来更好的效果
- 事件特征提取,要从base video representation中学习event proposal represention,这是主要要解决的问题,(现有的工作有DAPs,Bi-SST)需要构建优秀的编码器(鉴于DETR在物体识别上的出色能力,以往技术主要基于DETR以及DeformableDETR)其中要注意event要识别对事件正确的数量,找到事件正确的边界,生成好的(语义视频)特征,这些辅助机构需要其他模块来完成,近期又有相关工作对特征和文本成分进行对其,目的为了输出更加符合真值的文件,其方法具体来说也是在编码器处做文章
2、Representation Decoder(Caption Head)这部分用于对event proposal represention进行解码,其生成的文字序列又直接影响到损失值得计算来控制反向传播,所以也是一个可以提升得部分
Dataset(数据集说明会单出)
1、MSR-VTT
2、MSVD
3、Howto100M
4、ActivityNet Caption
5、YouCook2
6、VITT
7、...
国内外主要研究进展:(持续更新)
分布式模型正在逐渐被端到端模型所取代,这里我主要整理端到端模型:
论文名称 | 模型名称 | 简介 |
Dense-Captioning Events in Videos(2017) | DAPS变体 | 开山之作,阐述了对于视频的的处理不但要关注空间特征还要关注时序特征,对于Caption任务还要关注时间级别的特征 对于事件级别的特征定位它是基于DAPs: Deep Action Proposals for Action Understanding这篇文章 |
Step by Step: A Gradual Approach for Dense Video Captioning(2023) | SBS | 很细致的分布式Dence Video Caption的工作,功能组件很多很全,包括事件边界模块和事件定位模块,以及事件计数模块,在事件特征层面上的工作做的很全了,唯一缺点没有公布代码,无法复现结果 |
CLIP4Caption: CLIP for Video Caption(2021) | Clip4Caption | 1、 本文提出了一个Clip4Caption框架(基于 CLIP 增强的视频文本匹配网络 (VTM) )来提升视频描述任务的效果, 2、 该框架充分利用了视觉和语言的信息,并强制模型学习强文本相关的视频特征来生成文本生成。(这里能体现出Clip的思想) 3、 利用Uni-VL 的权重,同时大大简化了其结构以更好地拟合视频字幕任务。 4、 此外,与大多数使用 LSTM 或 GRU 作为句子解码器的现有模型不同,我们采用 Transformer 结构化解码器网络来有效地学习远程视觉和语言依赖性。 5、 此外,我们引入了一种新的字幕任务集成策略。 |
Multi-modal Dense Video Captioning(2020) | MDVC | 一个是将Transformer架构用于Dence Video Caption,摒弃了原始固定句子模式填词的生成模式,转为Encoder-Decoder的生成模式。一个是将多模态的思想用于Dence Video Caption,整合不同模态的信息帮助输出从结果上说,当时他的效果还是不错的,但现在已经在出现PDVC,GVL,Vid2Seq以及阿里大模型之后以后MDVC在结果上已经不够看了,但是他的思想是好的。 单纯用Transformer来进行时序建模从现在来看有点吃不消 论文中这个事件proposal的生成写的很不明确,如何应用也写的不明确,虽然代码开源,但鉴于其已经过时,不太值得一看 |
End-to-End Dense Video Captioning With Parallel Decoding(2021) | PDVC | 并行解码的端到端视频描述 全文最核心的一句话:通过这样做,PDVC旨在直接利用特征级的任务间关联。 PDVC的突出优点以及贡献:
(2) PDVC不依赖启发式非极大值抑制或循环事件序列选择网络来去除冗余,直接产生大小合适的事件集; (3)与采用两阶段方案相比,我们将增强的事件查询表示并行馈送到定位头和标题头,通过优化使这两个子任务深度关联和相互促进; (4)提出了event counter计数器 (5)在ActivityNet Captions和YouCook2上的大量实验表明,PDVC能够产生高质量的字幕结果,在定位精度与两阶段方法相当的情况下,超过了最先进的两阶段方法。 |
Parallel Pathway Dense Video Captioning With Deformable Transformer(2022) | PPVC | PDVC采用先提特征再将提取后的特征并行解码用于时间定位和文字生成 本文作者说这种方法有可能会在分支点带来信息瓶颈的风险,就是说,这种架构虽然避免了先定位再生成的这种序列结构,但是仍然保持这先编码再解码这种架构,编码器(Deformable Tranformer)可能会漏掉一些细节信息(这些细节信息用于时间生成和描述生成),所以对于长视频,生成的事件数少,生成的描述也缺乏细节(由于这种原因,即使PDVC提出了记数模块,计数模块的输出值也会比真实值低),再一个,如果生成特征的质量不好,也会传到后续的定位和生成模块。 |
GVL | wait | |
Vid2Seq | wait | |
Learning Hierarchical Modular Networks for Video Captioning(2024) | HMN | 为了提高生成效果,反向优化Encoder,进行了四个级别的特征对齐,包括主语特征对齐,谓词特征对齐,动词特征对齐,整句话级别的特征对齐。缺点模型复杂,不是密集视频,迁移有难度 |
... | ||