【论文阅读笔记】Rethinking the Evaluation of Video Summaries 视频摘要评估

作者发现:随机生成的摘要能够达到与最先进的方法相似甚至更好的性能分数。有时,完全随机方法的性能超过了人工注释器。

分析原因:分数的形成主要取决于视频分割,尤其是片段长度的分布。这主要是由于广泛使用的子集选择算法(背包算法)导致。在大多数情况下,原本的评估方式完全忽略了重要性分数的贡献。因此设计了新的评估方式

两个概念:

Keyframes:一些孤立的帧 组成摘要

Keyshots:一些镜头(一组连续的帧)组成摘要

以往的评估方式:

评估流程(基于keyshots,连续镜头):

预测每一帧的重要性分数 -> 连续帧的视频分段(均匀分段、单峰双峰分段等等)->用背包算法选一些视频段作为摘要 -> 准确率和召回率计算F1

yi ∈ {0, 1},表示是否选择该帧作为摘要帧

发现1:随机生成的重要性分数和主流算法预测出来的重要性分数 F1 score差不多

发现2:重要性分数对F1 score影响不大,分割的方式影响很大

原因:使用背包策略导致的。背包策略会尽可能地选择更多的短片段,避免长片段(当存在A+B分数>=C且长度<C时,会选择A+B)也就是说,会尽可能的选择更多更短的视频片段的组合作为摘要。例如,双峰分割从模式为 30 帧和 90 帧的两个分布中得出一个片段长度;因此,我们可以粗略地说,较长的段占据了总长度的三分之二。如果这些较长的片段都被丢弃,则生成的摘要仅包含原始视频的其余三分之一。如果我们想生成一个长度为原始视频时长15%的摘要,那么大部分片段都会被用来生成摘要,无论他的重要性分数如何。如果所有段的长度相同,则重要性分数会产生更大的影响

于是设计了新的评估方法:

作者使用重要度大小排序与人类标注重要度的排序结果的相关性来评估模型预测结果的好坏。具体来说,就是先将每帧分别按照模型预测的重要度和人类标注的重要度从大到小排序。然后用Kendall’s τ、 Spearman’s ρ相关系数来评估两个排序结果的相关程度。相关程度越高,模型预测结果越好;相关程度越低,模型预测越差。

 补充数据集介绍:

SumMe 数据集,ground-truth以 keyshots 的形式提供

TVSum 提供由多个用户注释的帧级重要性分数。转化为keyshots 的形式进行评估,方法为:

为了将重要性分数转换为基于keyshots的摘要,我们遵循 [40] 中的过程,其中包括以下步骤:1)使用 KTS [29] 对视频进行时间分段以生成不相交的间隔; 2)计算平均间隔得分并将其分配给间隔中的每一帧; 3)根据得分对视频中的帧进行排名; 4)应用背包算法[34]选择帧,使总长度低于某个阈值,从而产生该视频的基于keyshot的ground-truth摘要。

我们首先应用 KTS [29] 将测试视频时间分割成不相交的间隔。接下来,如果一个区间包含一个关键帧,我们将该区间中的所有帧标记为 1,并将该区间中没有关键帧的所有帧标记为 0。这会为视频生成基于 keyshot 的摘要。为了最小化生成的keyshots的数量,我们根据区间中的关键帧数除以它们的长度对区间进行排序,最后应用背包算法[34]来确保生成的基于keyshots的摘要长度最大为15%原始测试视频。

视频摘要常用的数据集及划分形式:

 

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值