摘要:
视频亮点检测 (VHD) 是计算机视觉中的一个活跃研究领域,旨在在给定原始视频输入的情况下定位最吸引用户的片段。然而,大多数 VHD 方法都是基于封闭世界假设,即预先定义固定数量的高亮类别,并且所有训练数据都是预先可用的。因此,现有方法在增加高亮域和训练数据方面的可扩展性较差。为了解决上述问题,我们提出了一种名为全局原型编码 (GPE) 的新型视频亮点检测方法,通过参数化原型逐步学习以适应新领域。为了促进这一新的研究方向,我们收集了一个名为 LiveFood 的精细注释数据集,包括超过 5,100 个现场美食视频,由四个领域组成:烹饪、饮食、配料和展示。据我们所知,这是第一个在增量学习环境中探索视频亮点检测的工作,开辟了将 VHD 应用于实际场景的新领域,其中相关的亮点领域和训练数据都随着时间的推移而增加。我们通过广泛的实验证明了 GPE 的有效性。值得注意的是,GPE 在 LiveFood 上超越了流行的领域增量学习方法,在所有领域都实现了显着的 mAP 改进。代码和数据集将公开提供。
引言:
带有摄像头的便携式设备的普及极大地促进了在线视频的创作和传播。这些足够的视频数据作为相关研究的必要前提,例如。视频摘要 ,视频亮点检测 (VHD) 和视频时刻定位。目前,大多数VHD方法都是在封闭世界假设下开发的ÿ