声音高层特征提取

最新推荐文章于 2022-01-01 14:07:58 发布

小李飞刀李寻欢

最新推荐文章于 2022-01-01 14:07:58 发布

阅读量1.3k

点赞数 2

分类专栏： speechdnn 文章标签： audio features

本文链接：https://blog.csdn.net/SPESEG/article/details/103962750

版权

speechdnn 专栏收录该内容

50 篇文章 3 订阅

订阅专栏

嗨，Dear，我是小明哥，上面几篇博文都是关于图像的【严格说是这样，但我用来近似视频，虽然有点不合理，但现在似乎没有提取视频features的经典方法】那么现在我用于声音场景分类也是可行的。

1-npz格式数据是字典，可以通过key来取值，或者直接查看

for k,v in para.items():
	print(k,v)

2-frame操作，这个我之前在其他博文中有提到过，设定hop_size,window_length即可得到矩阵，shape为(帧数,窗长),

同样请采用周期性的hann窗。不再赘述。

3-stft短时谱，请参考我之前手写的C语言版本。

4-hz与mel刻度转化，这个有个基本的公式，直接代入即可，不费劲

5-着重介绍下由STFT短时谱到mel谱，假设采样率为16kHz，nfft=1024

5.1先对能奎斯特频率/半采样率进行nfft/2+1等分，然后转成mel刻度

spec_hz=np.linspace(0.0, sr, nfft/2+1)
spec_mel=hz2mel(spec_hz)

#note:num_spec_bins=nfft/2+1

5.2设定上下边缘频率[考虑到声音在100下或者能奎斯特频率附近可能并不重要]，比如说125Hz和7800Hz

low_hz=125
high_hz=7800

5.3由于mel刻度带有中心频率，别管三角带或者其他带，一般都有中心频率吧，所以假定分成的mel刻度带为40个，那么实际需要用的是42个。因此对上面的边缘频率转成mel刻度后进行42等分

num_mel_bins=40
band_mel=np.linspace(hz2mel(low_hz),hz2mel(high_hz), num_mel_bins + 2)

5.4循环计算每个mel谱带的斜率，以下选自HTK中内容【有修改】

mel_weights = np.empty((num_spec_bins, num_mel_bins))
for i in range(num_mel_bins):
    low_mel, center_mel, high_mel = band_mel[i:i + 3]
    low_slope = ((spec_mel - low_mel) /
                   (center_mel - low_mel))
    high_slope = ((high_mel - spec_mel) /
                   (high_mel - center_mel))
    mel_weights[:, i] = np.maximum(0.0, np.minimum(low_slope, high_slope))

mel_weights[0, :] = 0.0

上面最后一步是去掉直流的影响。

5.5由上面mel权重与stft短时谱点乘即可，也可取log，那就是对数mel谱了

6由上面的对数mel谱再进行frame即可得到整个时长的声音特征

【关于此处为啥子又进行了frame处理，可以参考下librosa.istft源码，这里面也有类似的处理，至于为何，我也是一脸懵逼】

7对上面的mel特征进入预训练好的VGG网络，得到最终结果

据我观察数据及结果，发现每秒都会得到128D的特征，这点与图像似乎是类似的，每个图片得到2048D特征。

此处的声音特征需要avg吗？？我觉得图像的avg都已经失去了某些特征了。声音可能也是如此。

但我下面尝试下，且看下文分解，拜拜

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192

语音图像视频深度-学习群

小李飞刀李寻欢

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
声音高层特征提取

嗨，Dear，我是小明哥，上面几篇博文都是关于图像的【严格说是这样，但我用来近似视频，虽然有点不合理，但现在似乎没有提取视频features的经典方法】那么现在我用于声音场景分类也是可行的。1-npz格式数据是字典，可以通过key来取值，或者直接查看for k,v in para.items(): print(k,v)2-frame操作，这个我之前在其他博文中有提到过，设定hop_...
复制链接

扫一扫