Python语音信号处理

最新推荐文章于 2024-06-18 13:50:45 发布

陈同学_alex

最新推荐文章于 2024-06-18 13:50:45 发布

阅读量5.8k

点赞数 10

分类专栏：自然语言处理文章标签： Python 语音信号处理信号处理 MFCC 语谱图

本文链接：https://blog.csdn.net/qq_37394634/article/details/99577868

版权

自然语言处理专栏收录该内容

13 篇文章

订阅专栏

本文介绍了使用Python处理语音信号的基础知识，包括时域特征、频域特征、语谱图和梅尔频率倒谱系数（MFCCs）的提取方法。通过实际代码演示了如何读取音频文件，进行傅里叶变换，以及使用python_speech_features和librosa库提取MFCC。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人博客：http://www.chenjianqu.com/

原文链接：http://www.chenjianqu.com/show-44.html

语言信息是多种信息的混合载体，其中包括内容信息、说话人信息和情感信息。本文介绍了一些语音的基本知识，和使用Python进行处理。

时域特征

使用wave模块读取wav音频文件，画图时域图像，代码如下。

import numpy as np
import matplotlib.pyplot as plt
import os
import wave

path='D://NLP//dataset//语音情感//test.wav'
f=wave.open(path,'rb')
params=f.getparams()
#通道数、采样字节数、采样率、采样帧数
nchannels,sampwidth,framerate,nframes=params[:4]
voiceStrData=f.readframes(nframes)
waveData = np.fromstring(voiceStrData,dtype=np.short)#将原始字符数据转换为整数
#音频数据归一化
waveData = waveData * 1.0/max(abs(waveData))
#将音频信号规整乘每行一路通道信号的格式，即该矩阵一行为一个通道的采样点，共nchannels行
waveData = np.reshape(waveData,[nframes,nchannels]).T # .T 表示转置
f.close()

time=np.arange(0,nframes)*(1.0/framerate)
plt.plot(time,waveData[0,:],c='b')
plt.xlabel('time')
plt.ylabel('am')
plt.show()

代码执行结果：

频域特征

numpy模块自带了快速傅里叶变换的函数，对上面的音频数据进行傅里叶变换，代码如下：

fftdata=np.fft.fft(waveData[0,:])
fftdata=abs(fftdata)
hz_axis=np.arange(0,len(fftdata))
plt.figure()
plt.plot(hz_axis,fftdata,c='b')
plt.xlabel('hz')
plt.ylabel('am')
plt.show()

程序运行结果：

语谱图

使用matplotlib可以直接获得语谱图，代码如下：

#帧长20~30ms
framelength = 0.025 
#每帧点数 N = t*fs,通常情况下值为256或512,要与NFFT相等
#而NFFT最好取2的整数次方,即framesize最好取的整数次方
framesize = framelength*framerate  
#找到与当前framesize最接近的2的正整数次方
nfftdict = {}
lists = [32,64,128,256,512,1024]
for i in lists:
    nfftdict[i] = abs(framesize - i)
sortlist = sorted(nfftdict.items(), key=lambda x: x[1])#按与当前framesize差值升序排列
framesize = int(sortlist[0][0])#取最接近当前framesize的那个2的正整数次方值为新的framesize
 
NFFT = framesize #NFFT必须与时域的点数framsize相等，即不补零的FFT
overlapSize = 1.0/3 * framesize #重叠部分采样点数overlapSize约为每帧点数的1/3~1/2
overlapSize = int(round(overlapSize))#取整
spectrum,freqs,ts,fig = plt.specgram(waveData[0],NFFT = NFFT,Fs =framerate,window=np.hanning(M = framesize),noverlap=overlapSize,mode='default',scale_by_freq=True,sides='default',scale='dB',xextent=None)#绘制频谱图         
plt.ylabel('Frequency')
plt.xlabel('Time(s)')
plt.title('Spectrogram')

程序运行结果：

梅尔频率倒谱系数

提取MFCCs有两种方式，通过librosa模块或者python_speech_features模块，代码如下。

1.通过python_speech_features提取mfcc

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
from python_speech_features import mfcc, logfbank

# 读取输入音频文件
sampling_freq, audio = wavfile.read(path)
# 提取MFCC和滤波器组特征
mfcc_features = mfcc(audio, sampling_freq)
filterbank_features = logfbank(audio, sampling_freq)
print('\nMFCC:\n窗口数 =', mfcc_features.shape[0])
print('每个特征的长度 =', mfcc_features.shape[1])
print('\nFilter bank:\n窗口数 =', filterbank_features.shape[0])
print('每个特征的长度 =', filterbank_features.shape[1])
# 画出特征图，将MFCC可视化。转置矩阵，使得时域是水平的
mfcc_features = mfcc_features.T
plt.matshow(mfcc_features)
plt.title('MFCC')
# 将滤波器组特征可视化。转置矩阵，使得时域是水平的
filterbank_features = filterbank_features.T
plt.matshow(filterbank_features)
plt.title('Filter bank')
plt.show()

运行结果：

2.通过librosa提取mfcc

需要说明的是，librosa.load()函数是会改变声音的采样频率的。如果 sr 缺省，librosa.load()会默认以22050的采样率读取音频文件，高于该采样率的音频文件会被下采样，低于该采样率的文件会被上采样。因此，如果希望以原始采样率读取音频文件，sr 应当设为 None。该函数返回的参数y是经过归一化的声音数据

import librosa 

y,sr = librosa.load(path,sr=None)
mfcc_data = librosa.feature.mfcc( y,sr,n_mfcc=13)

plt.matshow(mfcc_data)
plt.title('MFCC')

运行结果：

从上面的代码可以看到，这两个库提取出的mfcc是不一样的。