python_speech_features文档翻译

最新推荐文章于 2024-08-10 07:24:40 发布

haodumiao

最新推荐文章于 2024-08-10 07:24:40 发布

阅读量3.6k

点赞数 3

分类专栏： python学习语音情感识别

本文链接：https://blog.csdn.net/u011898542/article/details/84255420

版权

python学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

语音情感识别

1 篇文章 0 订阅

订阅专栏

最近学习语音情感识别，需要提取语音特征，用到python_speech_features这个库，顺便把文档翻译一下，希望能帮到需要的人。英语水平不高，难免有错，敬请指正

欢迎来到python_speech_features的文档！

这个库提供了一般的用于ASR（语音识别）的语音特征，他包含了MFCCs（梅尔倒谱系数）和 filterbank energies（滤波器组能量？）。如果你还不知道什么是MFCCs，并且想要更多的了解MFCC，这里有一个教程：http://www.practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/

你需要numpy和scipy来运行这个库，这个项目的代码保存在https://github.com/jameslyons/python_speech_features

支持的特征：

python_speech_features.mfcc() - 梅尔倒谱系数
python_speech_features.fbank() - 滤波器组能量（？）
python_speech_features.logfbank() - 对数滤波器组能量
python_speech_features.ssc() - 子带频谱质心特征

使用MFCC特征：

from python_speech_features import mfcc
from python_speech_features import logfbank
import scipy.io.wavfile as wav

(rate,sig) = wav.read("file.wav")
mfcc_feat = mfcc(sig,rate)
fbank_feat = logfbank(sig,rate)

print(fbank_feat[1:3,:])

从这里你可以把特征写入一个文件

python_speech_features模块提供的函数

python_speech_features.base.mfcc(signal, samplerate=16000, winlen=0.025, winstep=0.01, numcep=13, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, ceplifter=22, appendEnergy=True, winfunc=<function <lambda>>)

计算一个音频信号的MFCC特征

参数：

signal - 需要用来计算特征的音频信号，应该是一个N*1的数组
samplerate - 我们用来工作的信号的采样率
winlen - 分析窗口的长度，按秒计，默认0.025s(25ms)
winstep - 连续窗口之间的步长，按秒计，默认0.01s（10ms）
numcep - 倒频谱返回的数量，默认13
nfilt - 滤波器组的滤波器数量，默认26
nfft - FFT的大小，默认512
lowfreq - 梅尔滤波器的最低边缘，单位赫兹，默认为0
highfreq - 梅尔滤波器的最高边缘，单位赫兹，默认为采样率/2
preemph - 应用预加重过滤器和预加重过滤器的系数，0表示没有过滤器，默认0.97
ceplifter - 将升降器应用于最终的倒谱系数。 0没有升降机。默认值为22。
appendEnergy - 如果是true，则将第0个倒谱系数替换为总帧能量的对数。
winfunc - 分析窗口应用于每个框架。默认情况下不应用任何窗口。你可以在这里使用numpy窗口函数例如：winfunc=numpy.hamming

返回：一个大小为numcep的numpy数组，包含着特征，每一行都包含一个特征向量。

python_speech_features.base.fbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, winfunc=<function <lambda>>)

从一个音频信号中计算梅尔滤波器能量特征

参数：

signal - 需要用来计算特征的音频信号，应该是一个N*1的数组
samplerate - 我们用来工作的信号的采样率
winlen - 分析窗口的长度，按秒计，默认0.025s(25ms)
winstep - 连续窗口之间的步长，按秒计，默认0.01s（10ms）
nfilt - 滤波器组的滤波器数量，默认26
nfft - FFT的大小，默认512
lowfreq - 梅尔滤波器的最低边缘，单位赫兹，默认为0
highfreq - 梅尔滤波器的最高边缘，单位赫兹，默认为采样率/2
preemph - 应用预加重过滤器和预加重过滤器的系数，0表示没有过滤器，默认0.97
winfunc - 分析窗口应用于每个框架。默认情况下不应用任何窗口。你可以在这里使用numpy窗口函数例如：winfunc=numpy.hamming

返回：2个值。第一个是一个包含着特征的大小为nfilt的numpy数组，每一行都有一个特征向量。第二个返回值是每一帧的能量

python_speech_features.base.logfbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97)

从一个音频信号中计算梅尔滤波器能量特征的对数

参数：

signal - 需要用来计算特征的音频信号，应该是一个N*1的数组
samplerate - 我们用来工作的信号的采样率
winlen - 分析窗口的长度，按秒计，默认0.025s(25ms)
winstep - 连续窗口之间的步长，按秒计，默认0.01s（10ms）
nfilt - 滤波器组的滤波器数量，默认26
nfft - FFT的大小，默认512
lowfreq - 梅尔滤波器的最低边缘，单位赫兹，默认为0
highfreq - 梅尔滤波器的最高边缘，单位赫兹，默认为采样率/2
preemph - 应用预加重过滤器和预加重过滤器的系数，0表示没有过滤器，默认0.97

返回：一个包含特征的大小为nfilt的numpy数组，每一行都有一个特征向量

python_speech_features.base.ssc(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, winfunc=<function <lambda>>)