深度学习工具audioFlux---一个系统的音频特征提取库

audioFluxLab

已于 2023-02-22 14:34:29 修改

阅读量1.2k

点赞数 1

分类专栏：音频深度学习文章标签：深度学习音视频人工智能

于 2023-02-21 13:25:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/audioFluxLab/article/details/129140670

版权

audioFlux是一个Python和C实现的音频处理库，专注于时频变换、频谱重排、倒谱系数等特征提取。它提供BFT、CQT、CWT等多种变换，并支持频谱重排和解卷积，适用于音频分析、音乐信息检索等领域。通过不同类型的倒谱系数，如mfcc、gtcc和cqcc，audioFlux能提取去音高特征，适用于语音识别和乐器分类任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

时频变换
频谱重排
倒谱系数
解卷积
谱特征
音乐信息检索

audioFlux是一个Python和C实现的库，提供音频领域系统、全面、多维度的特征提取与组合，结合各种深度学习网络模型，进行音频领域的业务研发，下面从时频变换、频谱重排、倒谱系数、解卷积、谱特征、音乐信息检索六个方面简单阐述其相关功能。

时频变换

audioFlux在时频分析领域中，包含以下通用变换(支持后续所有频率刻度类型)算法：

BFT - 基于傅里叶变换。

等效短时傅里叶变换（STFT），一般基于此实现大家熟知的mel频谱，时域上重叠平移加窗的傅里叶变换，一般重叠变换长度1/4，加高斯窗又称做Gabor变换，可以调整窗函数长度来方便的模拟时频分析特点，BFT算法除提供标准的mel/bark/erb等频谱外，还支持mel这些刻度类型的复数谱，同时支持mel等刻度频谱的重排。
NSGT - 非平稳 Gabor 变换。

类似加高斯窗的STFT（短时傅里叶变换），不同之处在于窗函数长度和t建立非平稳关系，相对STFT可以实现稳态信号中非平稳状态较好的分析，较好的onset端点侦测效果常基于此类频谱计算，同时可以做为实现CQT的一种高效方式，本算法中NSGT变换的octave频率刻度类型即CQT的高效实现。
CWT - 连续小波变换。

多分辨率时频分析，从数学上看，傅里叶变换的基底是无限的sin/cos函数，而小波变换基底是有限的很小的波函数，波函数的通用表示形式为 $\psi_{a,b}(t)=\frac{1}{\sqrt{a}}\psi(\frac{t-b}{a})$

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。