Python语音基础操作--3.3短时频域分析

最新推荐文章于 2022-10-02 15:03:17 发布

sinat_18131557

最新推荐文章于 2022-10-02 15:03:17 发布

阅读量3.9k

点赞数 2

分类专栏： Python 语音信号文章标签： python 信号处理语音识别

本文链接：https://blog.csdn.net/sinat_18131557/article/details/105795626

版权

Python 同时被 2 个专栏收录

66 篇文章 39 订阅

订阅专栏

语音信号

28 篇文章 61 订阅

订阅专栏

《语音信号处理试验教程》（梁瑞宇等）的代码主要是Matlab实现的，现在Python比较热门，所以把这个项目大部分内容写成了Python实现，大部分是手动写的。使用CSDN博客查看帮助文件：

代码可在Github上下载：busyyang/python_sound_open

短时傅里叶变换

语音信号是典型的非平稳信号，但是由于其非平稳性由发声器官的物理运动过程而产生，这种过程是相对变换缓慢的，在10~30ms以内可以认为是平稳的。傅里叶分析时分析线性系统和平稳信号稳态特征的手段，而短时傅里叶分析，是用稳态分析方法处理非平稳信号的一种方法。

假设语音波形时域信号为 $x (l)$ ,加窗分帧处理后得到的第 $n$ 帧语音信号为 $x_n(m)$ ,那有：
$x_n(m)=w(m)x(n+m),1\leqslant m\leqslant N$

对分帧信号进行短时傅里叶变化就是：
$X_n(e^{jw})=\sum\limits_{m=1}^Nx_n(m)e^{-jwm}$

其中，定义角频率 $w=2\pi k/N$ ，得到了离散的短时傅里叶变化(DFT)。实际上就是 $X_n(e^{jw})$ 在频域的取样：
$X_n(e^{j\frac{2\pi k}{N}})=X_n(k)=\sum\limits_{m=1}^Nx_n(m)e^{-j\frac{2\pi km}{N}},1\leqslant k \leqslant N$

实际中，可以使用FFT算法代替换成 $x_n(m)$ 到 $X_n(k)$ 的转换。

def STFFT(x, win, nfft, inc):
    xn = enframe(x, win, inc)
    xn = xn.T
    y = np.fft.fft(xn, nfft, axis=0)
    return y[:nfft // 2, :]

输入数据首先分帧处理，使用之前创建过的函数enframe(x, win, inc)。然后直接调用np.fft.fft(xn, nfft, axis=0)进行fft变化处理，中间有一个转置操作，是为了让时间轴作为横坐标，k作为纵坐标。

语谱图的表示

一般定义 $X_n(k)|$ 为 $x_n(m)$ 的短时幅度谱估计，而时间处频谱能量密度函数 $P (n, k)$ 表示为：
$P(n,k)=|X_n(k)|^2$

可以看出 $P (n, k)$ 是一个非负的实数矩阵，以时间n作为横坐标，k作为纵坐标，就可以绘制一张热图（或灰度图），这就是语谱图。如果通过 $10\lg P(n,k)$ 处理后，语谱图的单位就是dB，将变换后的矩阵精细图像和色彩映射后，就能得到彩色的语谱图。

语谱图中的横杠表示他们是共振峰，从横杠对应的频率和宽度可以确定相应的共振峰的频率域带宽，在一个语音段中，有没有横杠的出现是判断是不是浊音的重要标志。竖条是语谱图中与时间轴垂直的条纹，每个竖直条表示一个基音，条纹的起点相当于声门脉冲的起点，条纹之间的距离表示基音周期。

在python中，读取到语音信号以后可以直接使用

plt.specgram(data, NFFT=256, Fs=fs, window=np.hanning(256))
plt.ylabel('Frequency')
plt.xlabel('Time(s)')
plt.show()

进行绘制语谱图，如果想要使用短时傅里叶变化得到的结果来做，那么首先看下输出的结果是一个复数矩阵，所以先求模后平方np.abs(y)*np.abs(y)，那么用plt.matshow可以得到结果，不过这样的语谱图上下颠倒的，使用np.flip(np.abs(y)*np.abs(y), 0))上数据上下翻转一下。在绘制之前最好转化为dB单位，就是以10取对数，不然啥也看不见，黑乎乎一片。

from chapter3_分析实验.windows import *
from chapter3_分析实验.timefeature import *
from chapter2_基础.soundBase import *


def STFFT(x, win, nfft, inc):
    xn = enframe(x, win, inc)
    xn = xn.T
    y = np.fft.fft(xn, nfft, axis=0)
    return y[:nfft // 2, :]


data, fs = soundBase('C3_3_y.wav').audioread()

wlen = 256
nfft = wlen
win = hanning_window(wlen)
inc = 128

y = STFFT(data, win, nfft, inc)
freq = [i * fs / wlen for i in range(wlen // 2)]
frame = FrameTimeC(y.shape[1], wlen, inc, fs)

plt.matshow(np.log10(np.flip(np.abs(y)*np.abs(y), 0)))
plt.colorbar()
plt.close()

plt.specgram(data, NFFT=256, Fs=fs, window=np.hanning(256))
plt.ylabel('Frequency')
plt.xlabel('Time(s)')
plt.show()

得到的语谱图大约是这样的：
在这里插入图片描述

sinat_18131557

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
6
评论
Python语音基础操作--3.3短时频域分析

短时傅里叶变换语音信号是典型的非平稳信号，但是由于其非平稳性由发声器官的物理运动过程而产生，这种过程是相对变换缓慢的，在10~30ms以内可以认为是平稳的。傅里叶分析时分析线性系统和平稳信号稳态特征的手段，而短时傅里叶分析，是用稳态分析方法处理非平稳信号的一种方法。假设语音波形时域信号为x(l)x(l)x(l),加窗分帧处理后得到的第nnn帧语音信号为xn(m)x_n(m)xn(m),那有：...
复制链接

扫一扫

专栏目录