下一代听歌识曲技术——从信号处理到深度学习

本文由腾讯音乐的孔令城老师分享,介绍了QQ音乐在听歌识曲方面的技术演进,包括经典音频指纹技术和下一代的翻唱识别系统。QQ音乐通过度量学习提取Embedding,结合歌声ASR检索,提升了识别精确性和召回率,同时在处理翻唱和盗歌问题上也建立了有效的解决方案。
摘要由CSDN通过智能技术生成

音乐丰富我们的生活;音乐传达人类的情感;音乐表达人类的艺术。人类文明的进程中离不开音乐这个载体,音乐也离不开人类的真情创作。在听到好听却没听过的歌曲时,如何快速准确得到该歌曲的歌名成为当务之急。LiveVideoStackCon 2022 北京站邀请到了腾讯音乐的孔令城老师,为我们介绍QQ音乐在听歌识曲方面的成熟方案。

文/孔令城

编辑/LiveVideoStack

a8a3267651eeb7909e559859fd5099f1.png

下午好,我是来自腾讯音乐的孔令城 ,很荣幸能够借助LiveVideoStack平台、代表天琴实验室,与在座的各位专家、大佬分享我们天琴实验室在多媒体、AI 领域所做的工作。

aced844032f287973cc529814e69afb6.png

我会通过以下四个方面来介绍我们天琴实验室在听歌识曲方面所做的工作。

-01-

经典听歌识曲系统

80403fd810413b6342c114a531e8197a.png

当特别想听某一首歌的时候我们会采取什么措施?熟悉的歌曲可以直接在音乐APP上搜索歌名。如果忘记歌名,搜索歌词也是可以的。如果在外面偶然听到一首歌,完全不知道歌名以及歌词,手速快的可以瞬间拿出手机使用听歌识曲,如果慢一点记住了旋律也可以用哼唱识别。歌名搜索、歌词搜索是基于文本搜索,而哼唱识别和听歌识曲是基于音频内容检索。基于音频内容检索,需要对音频内容进行分析。

959d5085544aaab3a558bfcaa3535aa6.png

怎么衡量一款听歌识曲效果的好坏?什么样的听歌识曲才是好的系统?QQ音乐的听歌识曲到底效果怎样呢?来看看用户的反馈。

467fde1983a2748fcdd8ddc5d3839ff6.png

用户的期望可以总结为曲库全、识别准、速度快、灵敏度高以及旋律识别的模糊性

79b53e05399de0af17e2ac71386c99d8.png

经典听歌识曲系统,主要技术是音频指纹技术。图片横轴可以看作精准性,纵轴看作时间颗粒度。音频指纹技术就是要在很短的时间内确定一首歌在音频层面是否一致。音频指纹非常适合听歌识曲。可以在一个很小的片段内精确地匹配到对应的歌曲。

4197adaf0cf08afdb486037073ac37d8.png

最基本的音频指纹提取流程如图所示。一段音频先进行预处理,然后进行分帧信号转变,随后提

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值