Rethinking the Evaluation of Video Summaries 这篇论文发表于2019年CVPR上。作者Mayu Otani等人是来自日本CyberAgent公司、大阪大学、芬兰坦佩雷大学、奥卢大学的研究者。我首先要介绍一下Video Summarization(视频概括)这个任务。Video Summarization从字面上理解就是视频概括。概括视频内容一般有两种方式:第一种是用人类语言来描述视频的内容,比如video captioning;第二种是提取视频的关键帧来表述视频的内容,同时尽量减少信息损失。视频概括就属于第二种。
在这篇论文中,作者发现用随机算法来做视频概括任务,其效果可以与世界上现有最好方法(state-of-the-art)相提并论。作者又用人类做的视频概括标注做实验。他们从人类标注中抽取出其中一条,与剩下的标注进行对比计算指标。他们惊奇地发现,在某些情况下,随机算法的效果可以超过人工标注的结果。另有实验表明,视频分割的方式对视频概括任务的结果影响最大。基于以上的观察和问题,作者提出了新的评价指标和可视化方法。
视频概括方法流程
目前主流的视频概括方法流程主要包括三步:第一、重要度评估,评估视频每帧的重要度分数;第二、基于帧重要度分数对视频进行分割,将其切成一段段的;第三、视频段选择,根据视频分割和重要度估计结果选择若干段作为视频的概括。
<