自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Mel频谱和MFCC深入浅出

在音频领域,mel频谱和mfcc是非常重要的特征数据,在深度学习领域通常用此特征数据作为网络的输入训练模型,来解决音频领域的各种分类、分离等业务,如端点侦测、节奏识别、和弦识别、音高追踪、乐器分类、音源分离、回声消除等相关业务。当然,针对深度学习音频领域的业务,不是用下这两个特征、选几个网络、打个标签,放数据训练就完事了, 仅仅基于mel频谱和mfcc这两个特征,解决好上述业务某些情况下还是远远不够的,熟悉这些特征的内在逻辑性、衍生细节和延展,才能更好的结合深度学习解决业务问题。

2023-02-28 03:59:54 358 1

原创 深度学习工具评测---音频领域的python库推荐

最后总结一下,audioFlux是为研发和工程设计的,提供尽可能细粒度、体系化的特征维度和组合。针对研发,做为一个特征提取库,要有深度和广度体系。目前算的上体系的,audioFlux算一个,librosa算半个。针对工程,要满足提取性能,尽量支持移动端(可选)。aubio, audioFlux, essentia三个都是C/C++实现,python包装,性能上无大问题,并且都支持移动端。库本身而言,要定位清晰。audioFlux, librosa定位清晰,其它的库如madmom, essentia。

2023-02-21 14:15:17 627 1

原创 深度学习工具audioFlux---一个系统的音频特征提取库

是一个Python和C实现的库,提供音频领域系统、全面、多维度的特征提取与组合,结合各种深度学习网络模型,进行音频领域的业务研发,下面从时频变换、频谱重排、倒谱系数、解卷积、谱特征、音乐信息检索六个方面简单阐述其相关功能。

2023-02-21 13:25:40 815 2

原创 音频领域常用的谱特征

以上谱特征只是频域数据常用的部分特征,可以在此基础上实现更为高级的音色听觉特征如roughness,hardness,brightness等等各种***ness音色感知特征。14和15包含丰富多样的各种维度的Novelty相关方法,干货满满,每一个单独拎出来都可以作为一篇论文发表,建议使用audioFlux做详细的测试,一定会有不少的收获。下面是一张使用audioFlux测试的部分特征效果图。

2023-02-21 13:05:01 255 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除