论文笔记：语音情感识别（四）语音特征之声谱图，log梅尔谱，MFCC，deltas

最新推荐文章于 2023-02-13 16:04:58 发布

weixin_30437337

最新推荐文章于 2023-02-13 16:04:58 发布

阅读量1.7k

点赞数 1

文章标签：人工智能 python

原文链接：http://www.cnblogs.com/liaohuiqiang/p/10159429.html

版权

本文详细介绍了语音情感识别中的关键特征提取技术，包括原始语音信号、线性声谱图、梅尔声谱图、MFCC以及deltas和deltas-deltas。通过理解这些概念，可以更好地了解如何从语音信号中提取有助于情感识别的特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一：原始信号
从音频文件中读取出来的原始语音信号通常称为raw waveform，是一个一维数组，长度是由音频长度和采样率决定，比如采样率Fs为16KHz，表示一秒钟内采样16000个点，这个时候如果音频长度是10秒，那么raw waveform中就有160000个值，值的大小通常表示的是振幅。

二：（线性）声谱图
（1）对原始信号进行分帧加窗后，可以得到很多帧，对每一帧做FFT（快速傅里叶变换），傅里叶变换的作用是把时域信号转为频域信号，把每一帧FFT后的频域信号（频谱图）在时间上堆叠起来就可以得到声谱图，其直观理解可以形象地表示为以下几个图，图源见参考资料[1]。
（2）有些论文提到的DCT（离散傅里叶变换）和STFT（短时傅里叶变换）其实是差不多的东西。STFT就是对一系列加窗数据做FFT。而DCT跟FFT的关系就是：FFT是实现DCT的一种快速算法。
（3）FFT有个参数N，表示对多少个点做FFT，如果一帧里面的点的个数小于N就会zero-padding到N的长度。对一帧信号做FFT后会得到N点的复数，这个点的模值就是该频率值下的幅度特性。每个点对应一个频率点，某一点n（n从1开始）表示的频率为\(F_n = (n-1)*Fs/N\)，第一个点（n=1，Fn等于0）表示直流信号，最后一个点N的下一个点（n=N+1，Fn=Fs时，实际上这个点是不存在的）表示采样频率Fs。
（4）FFT后我们可以得到N个频点，频率间隔（也叫频率分辨率或）为 Fs / N，比如，采样频率为16000，N为1600，那么FFT后就会得到1600个点，频率间隔为10Hz，FFT得到的1600个值的模可以表示1600个频点对应的振幅。因为FFT具有对称性，当N为偶数时取N/2+1个点，当N为奇数时，取(N+1)/2个点，比如N为512时最后会得到257个值。
（5）用python_speech_feature库时可以看到有三种声谱图，包括振幅谱，功率谱（有些资料称为能量谱，是一个意思，功率就是单位时间的能量），log功率谱。振幅谱就是fft后取绝对值。功率谱就是在振幅谱的基础上平方然后除以N。log功率谱就是在功率谱的基础上取10倍lg，然后减去最大值。得到声谱图矩阵后可以通过matplotlib来画图。
（6）常用的声谱图都是STFT得到的，另外也有用CQT（constant-Q transform）得到的，为了区分，将它们分别称为STFT声谱图和CQT声谱图。

最低0.47元/天解锁文章