DSNet: A Flexible Detect-to-Summarize Network for Video Summarization
不同于以往将视频摘要视为回归问题(没有考虑时间相关性和完整性约束),2021年,最早的考虑这两者。
视频摘要通常分为三步:
1、镜头边界的检测
2、每帧的重要程度分数预测
3、关键帧选取
现有的视频摘要算法分成三类,无监督、弱监督和有监督
无监督的方法,用启发式搜索,代表性、多样性、稀疏性,来发现关键镜头
代表性的方法是基于聚类的、基于字典学习的、子集选择的、强化学习的、对抗学习的
弱监督的方法利用了一些辅助信息,包括视频标题、视频种类等。
代表性方法:video summarization using web-image priors and category-specific
video summarization.
但以上两种方法无法学习人工创造的summaries
有监督的方法包括:diverse sequential subset selection for supervised video
summarization, video summarization with long short-term
memory, retrospective encoders for video summarization, video summarization with attention-based encoder-decoder networks, and user-ranking video summarization.
包括anchor-based和anchor-free的两种方法,暂时没看懂
主要贡献:
1、提出了一个Detect-to-Summarize的网络框架,提供了一个新视角,从时序相关的检测问题,同时也给出重要性分数和分割位置。
2、用anchor-based方法,生成多尺度的时序候选区域;用anchor-free的方法,直接学习重要性分数和时序位置,以及center-ness score.
3、在SumMe和TVSum数据集上进行广泛的实验(extensive),并验证了方法的有效性。
无监督的方法
1、Early unsupervised methods are the clustering-based
approaches like k-medoid clustering,These methods
mainly leveraged low-level appearance cues and motion information. While good performance has been obtained, they cannot effectively cope with videos with variations in camera motion, illumination conditions and scene clutters
早期的像k-medoid这样的方法,利用低级的外观线索和动作信息。有较好的表现,但无法处理相机移动多变、光照条件改变和场景混乱的视频。
2、最近提出了四种无监督的方法,大致分成四类:需要再看看
dictionary learning based(基于字典学习):把视频摘要任务定义为(formulate)稀疏优化问题sparse optimization problem. 比如把整个视频用字典里的一些代表性元素表示。
subset selection based(基于子集选择):子集选择的方法选择信息丰富的视频帧子集。
reinforcement learning based(基于强化学习):基于强化学习的方法,比如提出了一个具有多样性-代表性奖励的深度总结网络。
adversarial learning based(基于对抗学习):学习了从ground truth中难以区分的视频摘要。
弱监督的方法:
弱监督的方法使用了辅助信息,包括web先验?视频标题,和视频种类。
有监督的方法:
因为能够人为创造视频摘要,有监督的方法取得了突破性的进展。
1、利用时空显著性和地标的信息构建线性的模型。
2、把视频摘要视作一个Determinantal Point Process。
3、非参数的方法,将训练集的summary结构转移到测试集上。
4、基于深度学习的方法:大多数是基于RNN(循环神经网络):
通过LSTM评估视频帧的重要性分数。
分别使用固定长度的分层RNN和分层结构自适应LSTM揭示了视频的底层分层结构。
…(仔细再看)
anchor-based和anchor-free模型:
候选框网络被引入来动作定位和视觉语言基础任务。
论文提出的方法:
Detect-to-Summarize network
anchor-based:
特征提取:given a video sequence V of T frames,用goolenet来提取特征,extract feature vectors vj, j ∈ {i,…, T }. 然后adopt the self-attention
mechanism [?] to extract long-range representations {w j}T1。为了积分,最后的表示是xj = wj + vj .
Temporal Interest Proposals: 使用预定义的多尺度间隔来生成interest proposals, 在第t个时间未知,会生成k个proposals, 每个proposal以t时刻为中点。因此,一个视频序列将生成K*T个interest proposals. 每帧的重要分数相同,这样便只关注时序上的联系。
训练阶段:给每个候选框打上正负标签(0,1);为了平衡,采样正负比为1:3. 当proposal的时序IoU(tIoU)与任意ground truth超过0.6,视为正例。0视为不重要的帧集合;0到0.3视为不完整的帧集合,负例;论文提及如果把0.3到0.6的视为负例则可能会有损于摘要表现。
优点是,通过正负proposals,能够选择高tIoU的相邻帧集合并同时剔除不相关的帧片段;表示形式丰富,0到0.3视为不完整;此外,将完整性任务和分类任务区分开,避免了两者互相影响。
论文统计了SumMe和TVSum数据集上的每个ground truth片段的长度,在1到44范围内(帧数);为了方便,将proposal的尺寸设置为1,2,4,8,16,32;为了平衡效率和效果,只选择了频率最高的四个尺寸,4,8,16,32.
proposals的分类和回归
每个proposal的特征进行一次池化操作转化成固定大小的vector。然后被输入如下的分类和回归模块中
第一个是重要性分数,第二个是中心的偏移,第三个是长度的偏移,由第二个和第三个可以预测出所需要的片段的边界。
损失函数
在这之后,还需要通过NMS剔除冗余proposal,之后还需要使用KTS选择不大于原视频百分之15%内容,而且使得平均重要性分数最大的一些shots,最后组合成video summary.
anchor-free:
anchor-based方法的缺点:
1、基于proposals, 由于大多数都是负例,会导致类别失衡。First, to obtain a
high recall of ground truth segments, our anchor-based DSNet
approach is required to densely sample interest proposals
at each temporal location. But, most proposals are assigned
as negative examples, leading to a severe class imbalance
problem.
2、预定义性质不适用于解决复杂和动态的场景。
3、tIoU计算非常耗时。
4、anchor-based的方法需要微调生成proposals的超参数。
结构如下
在提取特征后,直接预测每一帧的重要分数、分段边界以及center-ness score(下面有用于计算损失)。
提取特征:一样。
片段预测:直接预测每一帧以及相对于所在片段的偏移位置(由此推断出所在的片段的边界)
损失函数
因为很多正例会靠近所在片段的边界,所以这样会产生很多质量较低的片段。为了解决这个问题,引入了一个中心损失,总损失如下(v是预测的输出之一,叫做center-ness score)
key shot selection:
用每一帧重要性分数和center-ness score相乘作为置信度,用每个片段的所有帧的置信度的平均值来做动态规划,和anchor-based的方法一样。
实验部分下次一定。