声音高层特征提取

嗨,Dear,我是小明哥,上面几篇博文都是关于图像的【严格说是这样,但我用来近似视频,虽然有点不合理,但现在似乎没有提取视频features的经典方法】那么现在我用于声音场景分类也是可行的。

1-npz格式数据是字典,可以通过key来取值,或者直接查看

for k,v in para.items():
	print(k,v)

2-frame操作,这个我之前在其他博文中有提到过,设定hop_size,window_length即可得到矩阵,shape为(帧数,窗长),

同样请采用周期性的hann窗。不再赘述。

3-stft短时谱,请参考我之前手写的C语言版本

4-hz与mel刻度转化,这个有个基本的公式,直接代入即可,不费劲

5-着重介绍下由STFT短时谱到mel谱,假设采样率为16kHz,nfft=1024

5.1先对能奎斯特频率/半采样率进行nfft/2+1等分,然后转成mel刻度

spec_hz=np.linspace(0.0, sr, nfft/2+1)
spec_mel=hz2mel(spec_hz)

#note:num_spec_bins=nfft/2+1

5.2设定上下边缘频率[考虑到声音在100下或者能奎斯特频率附近可能并不重要],比如说125Hz和7800Hz

low_hz=125
high_hz=7800

5.3由于mel刻度带有中心频率,别管三角带或者其他带,一般都有中心频率吧,所以假定分成的mel刻度带为40个,那么实际需要用的是42个。因此对上面的边缘频率转成mel刻度后进行42等分

num_mel_bins=40
band_mel=np.linspace(hz2mel(low_hz),hz2mel(high_hz), num_mel_bins + 2)

5.4循环计算每个mel谱带的斜率,以下选自HTK中内容【有修改】

mel_weights = np.empty((num_spec_bins, num_mel_bins))
for i in range(num_mel_bins):
    low_mel, center_mel, high_mel = band_mel[i:i + 3]
    low_slope = ((spec_mel - low_mel) /
                   (center_mel - low_mel))
    high_slope = ((high_mel - spec_mel) /
                   (high_mel - center_mel))
    mel_weights[:, i] = np.maximum(0.0, np.minimum(low_slope, high_slope))

mel_weights[0, :] = 0.0

上面最后一步是去掉直流的影响。

5.5由上面mel权重与stft短时谱点乘即可,也可取log,那就是对数mel谱了

6由上面的对数mel谱再进行frame即可得到整个时长的声音特征

【关于此处为啥子又进行了frame处理,可以参考下librosa.istft源码,这里面也有类似的处理,至于为何,我也是一脸懵逼】

7对上面的mel特征进入预训练好的VGG网络,得到最终结果

据我观察数据及结果,发现每秒都会得到128D的特征,这点与图像似乎是类似的,每个图片得到2048D特征。

此处的声音特征需要avg吗??我觉得图像的avg都已经失去了某些特征了。声音可能也是如此。

但我下面尝试下,且看下文分解,拜拜

 

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像视频深度-学习群

 

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值