歌唱评价是K歌系统中核心技术之一。近年来,歌唱评价领域也发生着多元化和深度化的变革。本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江益靓,为大家介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践,以及优质内容挖掘中使用的音频品鉴系统。
文/江益靓
编辑/LiveVideoStack
各位同行朋友们,大家好,很高兴和大家一起分享交流,本次分享的主题是音频品鉴与歌唱评价——音频内容理解的一些技术实践。我是来自天琴实验室的益靓。
接下来将从四个方面展开介绍:歌唱评价概览、算法的探索以及落地的实践,最后会为大家介绍智能品鉴系统。
-01-
歌唱评价概览
歌唱评价是评价用户演唱是否动听,是否符合审美的一项任务。但在实际应用中还会分析更多维度,例如音色种类、音域范围、好听在哪里,哪个方面还有提升空间等等。
以QQ音乐的音频直播流片段为例。一位QQ音乐音频主播,直播了一小时。获取到直播流后,我们通过歌声检测技术捕捉了音频主播直播中的歌声片段,并使用音频指纹匹配歌曲,判断主播的演唱曲目。接下来,歌唱评价技术会结合主播演唱的音准、节奏、气息、技巧及情感进行分析,并通过声线的分析建模主播的画像,同时实时向主播提供歌唱反馈。还可以使用算法预测可能会喜欢这类声音的用户。这里会运用到很多歌唱评价的相关技术,例如歌声检测、歌唱评分、音色识别、唱法识别,歌手评价等。
歌唱评价最基础的能力是歌唱评分,TME的全民K歌、Wesing和酷狗唱唱使用了多维打分功能, 公司外的软件如Pokekara、StarMaker都有歌唱评分功能。Apple Music在去年12月推出了Apple Music Sing,提供了用户跟唱功能,暂时还不支持打分。歌唱评分在线下也有很多落地项目,例如去年的央视节目《唱出我新声》使用了多维打分SDK,综合专业评委评价以及机器AI评价为选手打分。此外,全民K歌的《校园新歌声》、《主播新声代》等线下赛事也引入了AI打分。
直播歌唱场景中,主播可以在音乐平台点伴奏,跟着旋律线唱歌,并和粉丝互动。主播可以以打分为依据,进行PK连麦。全民K歌中还有实时的歌唱竞技游戏——“K歌王者”。
歌唱评价还可应用在优质作品筛选方面,如全民K歌的大赛、高质歌房筛选、运营活动中低质作品的过滤和高质作品的分发。此外,在QQ音乐中,也可以通过品鉴技术检测曲库中的低质作品,或者对入库作品的质量进行把关。总结来说,歌唱评价是一个鉴优去劣,或者说是品鉴的过程。
上图展示了我们参考文献和实际经验,搭建的歌唱评价体系。分为两个方面,一个是用户维度,一个是歌曲维度。用户维度和用户本身的特性相关,如音域、音色及发声,是相对稳定的评价维度,通过日常练习可以得到改善。歌曲维度则更偏向于歌曲本身,和用户本次演唱的表现有关,例如如基础的音准、节奏;中阶的气息、咬字以及高阶的技巧、情感。我们也逐一进行了技术实践。
歌唱评价分可分为有参考评价和无参考评价。有参考评价是指通过对比用户演唱特征与模板的匹配度来评分。例如对比用户演唱的基频和歌曲伴奏或者曲谱模板MID进行匹配,或者用户的时域,频域特征同分离原唱的时域、频域特征进行匹配。有参考评价更注重用户演唱和模版的一致性以及完成度的评价。无参考评价是指不依赖模版对用户演唱做出的评价,比较流行的做法是用数据驱动,拟合专家评分训练模型,使用神经网络学习“好声音”。
在学术研究领域,与其相关的关键词包含歌唱评分、视唱评价、歌手识别及音色表征等,都是音频/音乐内容理解相关子领域。纵观歌唱评价技术发展,最初的研究常常使用基频、响度及颤音等特征,随着时间的发展,无参考评价、深度学习技术使用的越来越多。
最终我们结合平台的实际情况,选择了有参考评价和无参考评价相结合的方案,目标是提供维度最全面,最公允的实时歌唱评价算法。
-02-
歌唱评价探索</