学术派 | 基于AI的视频精彩度分析技术

前 言

随着视频数量的爆发式增长,特别是近年来短视频领域的迅速崛起,视频已经成为大部分互联网用户娱乐的首要选择,占据了用户大部分娱乐时间。面对如此海量的视频,如何帮助爱奇艺用户从冗长的视频中筛选出更具吸引力的视频片段,提高用户的观看体验,提升用户粘性,成为我们十分关注的研究课题。为此,我们深入研究了视频精彩度分析技术,成功实现了不同时间粒度下精彩视频片段的自动筛选,并能给出片段包含的看点标签,在多个业务场景中都得到了较好的应用效果。

爱奇艺拥有十分丰富的PPC(Professional Produced Content)视频资源,视频内容多样,仅仅是综艺就可分为搞笑、选秀、访谈、情感、职场、脱口秀等十几种类型,如果每个类型都建立一个精彩度模型,不仅资源消耗巨大,而且模型的自适应能力也将大大降低。学术界的精彩看点检测技术大多聚焦于UGC(User Generated Content)视频,且通常是针对特定领域视频的分析,因而并不适合直接应用于爱奇艺的精彩度分析技术中。业界公开的关于视频的精彩度探索比较少,较有影响力的为2017年百度公开的Video Highlight数据集,该数据集包括1500个综艺长视频,视频总时长约1200小时,只对片段进行了精彩/非精彩标注。如何针对爱奇艺多个业务场景的需求,对内容多样的视频建立通用精彩度模型,并对视频内容进行更加精细化的精彩度分析,是我们面临的主要挑战。

本文将介绍我们探索出的视频精彩度分析技术方案,整体技术框架如下:

图1 视频精彩度分析技术方案

该方案融合了监督模型、弱监督模型和明星、用户片段截取等其他维度的信息,能够综合给出较为符合人为主观评价的视频精彩度评分。下面我们将详细介绍各个模块的具体技术解决方案。

视频精彩度分析技术方案

1

视频精彩度监督模型

我们的目标是对视频的精彩度进行较为准确的评分,而非简单的精彩/非精彩二分类,因而我们将精彩度建模为一个回归任务,而建立监督模型的前提是拥有高质量的标注数据集。我们的数据集来自5000多部爱奇艺影视剧和综艺长视频,每条数据为10s左右的视频切片,标注人员对切片根据精彩度进行打分0到10打分,并对精彩切片从场景、行为、情感、对话等多个维度上人工打出精彩看点标签,建立了包含超过36万切片的视频精彩度分析数据集。该数据集具有以下特点:

(1)数据集大,从头训练端到端的模型,训练成本高;

(2)精彩度评分主观性较大,标注人员对同类型切片的打分可能有1-3分的差异;

(3)精彩度评分与精彩看点标签高度相关,精彩切片一定包含看点标签;

(4)看点标签为多标签,标签内部具有较大的相关性,如搞笑和大笑、鼓掌和欢呼等。

针对数据集的以上特点,我们采用迁移学习,先提取多模态特征对视频切片进行表征,再进行后续训练,提高模型性能的同时大大降低了训练成本;对于精彩度分数,采用标签分布学习算法去学习分数标签的分布,而非传统的回归loss;对于看点标签,我们采用典型相关自编码器算法去学习标签内部的相关性;最后我们采用了多任务学习模型,同时训练精彩度分数和看点标签,获得了比单个任务更佳的性能。下图是我们的精彩度监督模型技术框架。

图 2 精彩度监督模型技术框架

下面我们分别详细介绍各个技术模块:

特征提取

我们的数据集包含超过36万的视频切片,已经超过了行为识别数据集kinetics-400的规模。研究表明,3D CNN是比2D CNN更好的视频表征模型,我们的实验也证明了这一点,但同时3D CNN的模型参数也达到上千万甚至上亿。如果用几十万视频数据从头训练3D CNN模型,每次超参数调优如batch size、学习率、正则系数、优化器等的组合变化,都需要几十万次的迭代才能看到效果,不仅需要耗费更多的计算资源和训练时间,也可能会影响模型的最终效果。

因而,我们借鉴2D视觉任务中比较流行的基于预训练的ImageNet模型进行迁移学习的做法,首先用基于kinetics-400训练得到的行为识别I3D模型,对我们的数据提取视频特征,基于视频特征进行网络训练。另外,我们还基于精彩度数据集对I3D的高层网络进行了微调,用微调网络提取视频特征比直接用原始I3D模型特征效果更好。最后,我们考虑到视频的精彩度不仅与视频的视觉内容有关,还与音频高度相关,因而我们用基于包含200万个10秒音频的AudioSet数据集训练得到的Vggish模型,对我们的数据集提取音频特征,将音视频特征融合后输入自己设计的神经网络进行训练,相比单模态特征,采用多模态特征使得模型性能得到了显著提升。下图是我们基于百度Video Highlight数据集进行精彩度二分类进行的实验结果。

图 3 不同模型提取特征性能对比

2018年,在kinetics-600数据集公开后,我们在自己的精彩度数据集上,又进行了基于kinetics-600数据集预训练模型进行特征提取的实验。实验表明,相比微调后的kinetics-400模型,直接采用kinetics-600预训练模型使得精彩度评分的mse下降了0.06,而再对kinetics-600预训练模型进行网络微调,则对精彩度评分的性能无显著增益,因而,目前我们线上采用的视频视觉特征提取模型为kinetics-600预训练模型。

精彩度评分

精彩度评分的主观性较强,如果想要获得更加客观真实的训练数据分数标签,需要多人对同一个视频进行标注评分,标注成本巨大。我们的训练集一条数据只有一个受训过的专业人员进行标注,这不可避免的会导致标注分数与真实分数之间有一定差异。为了降低人为标注主观因素对模型的干扰,我们采用深度标签分布学习(Deep Label Distribution Learning,DLDL),即将标注分数转化为一个分布在0-10区间的一个分布,而非直接去用模型拟合学习标注分数。具体地,假设对于数据X,标注分数为S,我们用均值为S,方差为1的高斯分布来拟合其分数分布y,如下:

其中

为归一化参数。假定我们模型网络的最后一层输出为x,我们用softmax激活函数将输出转化为概率分布,如下:

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值