音乐检索(听歌识曲)实现过程

序言

  • 由于需要做无人机的声音识别,但是现有的做无人机声识别的成果不是很多,机缘巧合下在一篇论文中看到了一篇有关音乐识别的论文,就是这个shazam论文 ,该算法提出的时间比较早,也不是很复杂,而且已经商用了很久:shazam网站 ,当然,这个论文里面的是算法的初级版。所以,就萌生了想要实现它的想法,等复现后,视效果再考虑移植到对无人机声识别的过程中。

需要实现的功能

  • 输入一些音乐,提取这些音乐的声纹信息,存放于数据库中,用于识别音频片段
  • 输入一个音频片段,大约10s到20s左右,该音频片段相对于原曲,允许混杂一些噪音信号,但是要求原曲子的声纹信息已经存在于声纹信息库中

算法原理

这一部分,仔细看论文的话,其实还是很容易理解的,并不复杂,而且论文本身也描述的很详细了,距离实现,可能就差一层窗户纸。这里我自己做一份梳理和精要,算法主要分为两个部分,提取特征与检索方式:

  • 提取特征第一步(这里我只说明结果,并不解释为什么用这个特征,具体解释论文中很详细): 对音频做快速傅里叶变换,得到频谱信息;划分不同的频带,选取每一频带的幅度最大的频率点作为一个特征值的点保留下来。例如:总的频率范围是0-8KHz,那我如果平均划分8个区域:0-1,1-2,2-3…7-8,最后每一帧就会有八个极值点,其余的点就可以舍弃掉,后面我们只需要频谱的极值点。

  • 提取特征第二步: 计算哈希值。我们并不是直接将极值点信息不做处理直接放进数据库中,而是需要将极值点信息与其他信息做一些组合,保留时间,频率等特征。这里引入两个概念,两个概念:锚点( a n c h o r   p o i n t anchor\ point ancho

  • 12
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 23
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值