wav2midi 音乐旋律提取算法附可执行demo

最新推荐文章于 2024-01-10 09:17:29 发布

weixin_33754913

最新推荐文章于 2024-01-10 09:17:29 发布

阅读量2.9k

点赞数 5

文章标签： python 人工智能 matlab

原文链接：http://www.cnblogs.com/cpuimage/p/9747247.html

版权

本文介绍了将音频转换为MIDI的算法思路，探讨了音频指纹、主旋律提取的重要性，并分享了一个wav2midi的可执行demo。通过分析音频到MIDI的转换过程，讨论了算法的复杂性和优化空间，提到了音乐信息检索（MIR）领域的相关知识，以及在音频处理中借鉴图像算法的方法。

摘要由CSDN通过智能技术生成

前面提及过，音频指纹算法的思路。

也梳理开源了两个比较经典的算法。

https://github.com/cpuimage/shazam

https://github.com/cpuimage/AudioFingerprinter

后来一段时间，稍微看了下这两个算法，还有不少可以精简优化的空间。

例如抗噪，特征有效性等优化思路。

音频指纹切片后的hash特征信息还是太多了，

不过作为哼唱搜歌的基本应用，是足够的了。

不过我觉得还是可以再进一步提取歌曲的旋律特征的，在音频指纹的基础上更进一步。

　　旋律是最重要的音乐要素之一,多应用于音乐内容分析、音乐创作、音乐教育、抄袭检测等方面。

主旋律提取旨在从一段音乐中自动估计对应于主旋律单音音符序列的音高或基频。

流行音乐一般属于复杂的多音音乐,因此主旋律提取面临着许多挑战。

　　在这里要特别说一下，音频处理领域碰到的问题都是相似的。首当其冲主要是噪声，其次是音量和语速。

特别是在一些场景下的asr识别，例如实时对话，同声传译之类环境下，语速和音量的干扰影响很多时候多过于噪声。

而很多提供asr服务的厂商对这类情况支持不佳，而据我所知，讯飞的asr中是有内置前处理算法的。

好像有点偏题了，回到主题上来。

也就是说不管做音频还是音乐上面提到的问题都会造成一定精度影响。

音频前处理算法是非常重要

最低0.47元/天解锁文章

weixin_33754913

关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。