摘要
随着电子竞技直播的日益流行,精彩时刻回放已经成为直播平台的一个重要功能,它在几秒钟内聚合了整个激动人心的战斗场景。在这篇论文中,我们介绍了一种新的训练策略,它不需要任何额外的注解来自动生成游戏视频的亮点。考虑到现有的手动编辑剪辑比长游戏直播视频包含更多的亮点,我们在编辑过的剪辑和长时间直播视频之间执行两两排序约束。提出了一种多流融合框架,用于融合视频中提取的空间、时间和音频特征。为了评估我们的方法,我们测试了平均15分钟长的游戏直播视频。在视频上的大量实验结果表明,该算法在三流融合的精彩时刻生成和精彩时刻有效性方面都取得了令人满意的效果。
介绍
在过去的十年里,直播市场发展迅速,尤其是中国的“斗鱼”、“快手”、“企鹅”等电子竞技市场。直播平台的核心功能之一是亮点闪回,在漫长的直播过程中展示最精彩的打斗片段。然而,目前在平台上的亮点闪回是手动编辑和上传的。这个内容生成过程消耗了大量的人力资源。因此,自动生成精彩片段是这些实时平台的迫切需求。
为了解决上述问题,之前的工作探索了帧级或裁剪级的精彩片段检测[13、4、15、3、10、14]。[3]将精彩片段检测任务作为分类任务处理,即高光部分作为目标类,其余部分作为背景类。这种方法需要对每个帧或剪辑进行精确的标记,通常在监督模式下使用。[10]认为精彩片段对于视频中的每一帧都是一个新奇的事件。构建了一个卷积式自动编码器,用于对游戏场景、人脸和音频进行可视化分析。另一方面,[4,15,14]利用了高光剪辑与非高光剪辑之间的内在关系,其中精彩片段剪辑得分高于非精彩剪辑。在此基础上,利用一个排序网络来实现监督和非监督模式下的关系;
在这篇文章中,我们主要关注的是《王者荣耀》游戏直播视频的精彩时刻生成。我们将视频中激烈的打斗场