音乐丰富我们的生活;音乐传达人类的情感;音乐表达人类的艺术。人类文明的进程中离不开音乐这个载体,音乐也离不开人类的真情创作。在听到好听却没听过的歌曲时,如何快速准确得到该歌曲的歌名成为当务之急。LiveVideoStackCon 2022 北京站邀请到了腾讯音乐的孔令城老师,为我们介绍QQ音乐在听歌识曲方面的成熟方案。
文/孔令城
编辑/LiveVideoStack
下午好,我是来自腾讯音乐的孔令城 ,很荣幸能够借助LiveVideoStack平台、代表天琴实验室,与在座的各位专家、大佬分享我们天琴实验室在多媒体、AI 领域所做的工作。
我会通过以下四个方面来介绍我们天琴实验室在听歌识曲方面所做的工作。
-01-
经典听歌识曲系统
当特别想听某一首歌的时候我们会采取什么措施?熟悉的歌曲可以直接在音乐APP上搜索歌名。如果忘记歌名,搜索歌词也是可以的。如果在外面偶然听到一首歌,完全不知道歌名以及歌词,手速快的可以瞬间拿出手机使用听歌识曲,如果慢一点记住了旋律也可以用哼唱识别。歌名搜索、歌词搜索是基于文本搜索,而哼唱识别和听歌识曲是基于音频内容检索。基于音频内容检索,需要对音频内容进行分析。
怎么衡量一款听歌识曲效果的好坏?什么样的听歌识曲才是好的系统?QQ音乐的听歌识曲到底效果怎样呢?来看看用户的反馈。
用户的期望可以总结为曲库全、识别准、速度快、灵敏度高以及旋律识别的模糊性。
经典听歌识曲系统,主要技术是音频指纹技术。图片横轴可以看作精准性,纵轴看作时间颗粒度。音频指纹技术就是要在很短的时间内确定一首歌在音频层面是否一致。音频指纹非常适合听歌识曲。可以在一个很小的片段内精确地匹配到对应的歌曲。
最基本的音频指纹提取流程如图所示。一段音频先进行预处理,然后进行分帧信号转变,随后提