【Machine Learning】音特征提取技巧

本文探讨了音频信息处理中特征选取的重要性,强调了窗长、跳步的选择,以及统计方法和多尺度、多分辨率在特征提取中的应用。通过不同窗长和跳步组合,以及统计方法如均值、方差、最大值、最小值等,可以增强特征表示。此外,利用多尺度技术如Multiresolution spectrograms和金字塔方法能提升音频特征的丰富性。
摘要由CSDN通过智能技术生成

        研究音频信息处理方向已有一年之久,深刻认识到音频特征的选取对实验结果的影响之大,无论是从最底层的时域、频域的基础特征,还是经典的MFCC、PLP特征,甚至是无监督特征,其中的任何一种在不同的应用场合下都有其优势,不同特征的结合也会有比较大的影响,然而,说到底还是离不开以上这些基本的类型。如何在实验中对上述的某一样的特征进行更加精细的分析呢?下面会给大家提供一些思路。

       1、窗长和跳步

       对于一段音频,很多时候不能将整段进行FFT,这个时候就需要选取合适的窗长,为了减少分窗时带来的人为带来的窗边界影响,又需要选取合适的跳步。所以对于窗长和跳步的选取十分重要,甚至可以将多种不同窗长和跳步的特征结合起来。

        2、统计方法

       如1所说,通常我们不会将整段音频进行FFT,所以,在做完对单个帧的特征提取后,需要做一个统计(当然,也有不需要统计的时候,比如Deep Learning里输入特征通常是整个对象的信息),一般的常用的统计方法是求对应维特征的均值和方差,比如对于一个N帧的M维特征矩阵,最后将每列的值求均值和方差,可以得到一个2M的特征向量,这个向量就是最终提取出来的特征。事实上,我们均值和方差并非唯一的统计方法, 比如,我们还可以选取某一列的最大值或者最小值,还有相邻帧作差(一阶差)的均值和方差,甚至是二阶差、N阶差的均值和方差ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值