音频品鉴与歌唱评价——音频内容理解实践-CSDN博客

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/130757783

本文介绍了腾讯音乐天琴实验室在音频品鉴与歌唱评价技术的实践，包括歌唱评价的概览、算法探索、落地实践以及智能音频品鉴系统的应用。歌唱评价涉及音准、节奏、技巧、气息和情感等多个维度，通过有参考和无参考评价相结合的方式实现。此外，智能音频品鉴系统则对歌唱作品和音乐作品进行全面理解，包括音色识别、场景识别和直播高光时刻的识别等功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

歌唱评价是K歌系统中核心技术之一。近年来，歌唱评价领域也发生着多元化和深度化的变革。本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江益靓，为大家介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践，以及优质内容挖掘中使用的音频品鉴系统。

文/江益靓

编辑/LiveVideoStack

各位同行朋友们，大家好，很高兴和大家一起分享交流，本次分享的主题是音频品鉴与歌唱评价——音频内容理解的一些技术实践。我是来自天琴实验室的益靓。

接下来将从四个方面展开介绍：歌唱评价概览、算法的探索以及落地的实践，最后会为大家介绍智能品鉴系统。

-01-

歌唱评价概览

歌唱评价是评价用户演唱是否动听，是否符合审美的一项任务。但在实际应用中还会分析更多维度，例如音色种类、音域范围、好听在哪里，哪个方面还有提升空间等等。

以QQ音乐的音频直播流片段为例。一位QQ音乐音频主播，直播了一小时。获取到直播流后，我们通过歌声检测技术捕捉了音频主播直播中的歌声片段，并使用音频指纹匹配歌曲，判断主播的演唱曲目。接下来，歌唱评价技术会结合主播演唱的音准、节奏、气息、技巧及情感进行分析，并通过声线的分析建模主播的画像，同时实时向主播提供歌唱反馈。还可以使用算法预测可能会喜欢这类声音的用户。这里会运用到很多歌唱评价的相关技术，例如歌声检测、歌唱评分、音色识别、唱法识别，歌手评价等。

歌唱评价最基础的能力是歌唱评分，TME的全民K歌、Wesing和酷狗唱唱使用了多维打分功能，公司外的软件如Pokekara、StarMaker都有歌唱评分功能。Apple Music在去年12月推出了Apple Music Sing，提供了用户跟唱功能，暂时还不支持打分。歌唱评分在线下也有很多落地项目，例如去年的央视节目《唱出我新声》使用了多维打分SDK，综合专业评委评价以及机器AI评价为选手打分。此外，全民K歌的《校园新歌声》、《主播新声代》等线下赛事也引入了AI打分。

直播歌唱场景中，主播可以在音乐平台点伴奏，跟着旋律线唱歌，并和粉丝互动。主播可以以打分为依据，进行PK连麦。全民K歌中还有实时的歌唱竞技游戏——“K歌王者”。

歌唱评价还可应用在优质作品筛选方面，如全民K歌的大赛、高质歌房筛选、运营活动中低质作品的过滤和高质作品的分发。此外，在QQ音乐中，也可以通过品鉴技术检测曲库中的低质作品，或者对入库作品的质量进行把关。总结来说，歌唱评价是一个鉴优去劣，或者说是品鉴的过程。

上图展示了我们参考文献和实际经验，搭建的歌唱评价体系。分为两个方面，一个是用户维度，一个是歌曲维度。用户维度和用户本身的特性相关，如音域、音色及发声，是相对稳定的评价维度，通过日常练习可以得到改善。歌曲维度则更偏向于歌曲本身，和用户本次演唱的表现有关，例如如基础的音准、节奏；中阶的气息、咬字以及高阶的技巧、情感。我们也逐一进行了技术实践。

歌唱评价分可分为有参考评价和无参考评价。有参考评价是指通过对比用户演唱特征与模板的匹配度来评分。例如对比用户演唱的基频和歌曲伴奏或者曲谱模板MID进行匹配，或者用户的时域，频域特征同分离原唱的时域、频域特征进行匹配。有参考评价更注重用户演唱和模版的一致性以及完成度的评价。无参考评价是指不依赖模版对用户演唱做出的评价，比较流行的做法是用数据驱动，拟合专家评分训练模型，使用神经网络学习“好声音”。