wav2midi 音乐旋律提取算法 附可执行demo

本文介绍了将音频转换为MIDI的算法思路,探讨了音频指纹、主旋律提取的重要性,并分享了一个wav2midi的可执行demo。通过分析音频到MIDI的转换过程,讨论了算法的复杂性和优化空间,提到了音乐信息检索(MIR)领域的相关知识,以及在音频处理中借鉴图像算法的方法。
摘要由CSDN通过智能技术生成

前面提及过,音频指纹算法的思路。

也梳理开源了两个比较经典的算法。

https://github.com/cpuimage/shazam

https://github.com/cpuimage/AudioFingerprinter

后来一段时间,稍微看了下这两个算法,还有不少可以精简优化的空间。

例如抗噪,特征有效性等优化思路。

音频指纹切片后的hash特征信息还是太多了,

不过作为哼唱搜歌的基本应用,是足够的了。

不过我觉得还是可以再进一步提取歌曲的旋律特征的,在音频指纹的基础上更进一步。

  旋律是最重要的音乐要素之一,多应用于音乐内容分析、音乐创作、音乐教育、抄袭检测等方面。

主旋律提取旨在从一段音乐中自动估计对应于主旋律单音音符序列的音高或基频。

流行音乐一般属于复杂的多音音乐,因此主旋律提取面临着许多挑战。

  在这里要特别说一下,音频处理领域碰到的问题都是相似的。首当其冲主要是噪声,其次是音量和语速。

特别是在一些场景下的asr识别,例如实时对话,同声传译之类环境下,语速和音量的干扰影响很多时候多过于噪声。

而很多提供asr服务的厂商对这类情况支持不佳,而据我所知,讯飞的asr中是有内置前处理算法的。

好像有点偏题了,回到主题上来。

也就是说不管做音频还是音乐 上面提到的问题都会造成一定精度影响。

音频前处理算法是非常重要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值