0.背景研究
基音频率, 简称基频, 它决定了语音的音高. 在语音信号处理中, 基频信息可应用于语音识别、语音压缩编码以及语音分离等领域。
2014年Gonzalez 提出了非线性地基因检测语谱图特征PEFAC, 截至目前该特征已被证明具有较好的鲁棒性.且被广泛的应作基音检测和语音识别特征,近些年一些学者将PEFAC语谱图输入到CNN,DNN等深度神经网络中进行各项语音实验。
短时语音信号可以表示为一系列谐波的加权和, 其中第1 个谐波即为基频, 记做F0, 其他谐波均为F0 的整数倍.在上边的语谱图中, 这些谐波表现为一条条相互平行的深色曲线. 图中最下面一条曲线即代表基频, 并且每两条相邻曲线之间的距离也是一个基频.
需要指出的是PEFAC语谱图特征在频率维度上是对数尺度(Logarithmic scale) 的.
表现在语谱图上即是这样:
1.需要用到的工具箱
voicebox官网路径:voicebox官网链接
安装教程请戳这里:voicebox安装教程
2.参数说明及调用
2.1 参数说明
%V_FXPEFAC PEFAC pitch tracker [FX,TT,PV,FV]=(S,FS,TINC,M,PP)
%
% Input: s(ns) Speech signal 读取出的语音序列
% fs Sample frequency (Hz) 采样率,根据对应的语音来设置
% tinc Time increment between frames (s) [0.01] 设置帧长
% or [start increment end]
% m mode 设置模式,可以选择下边三种不同的模式
% 'g' plot graph showing waveform and pitch
% 'G' plot spectrogram with superimposed pitch using
% options pp.sopt [default: 'ilcwpf']
% 'x' use external files for algorithm parameter
% initialization: fxpefac_g and fxpefac_w
% pp structure containing algorithm parameters 一般不做要求
%
% Outputs: fx(nframe) Estimated pitch (Hz)
% tx(nframe) Time at the centre of each frame (seconds).
% pv(nframe) Probability of the frame of being voiced
% fv structure containing feature vectors
% fv.vuvfea(nframe,2) = voiced/unvoiced GMM features
2.2 调用
掉用可以按照以下格式
1. Style 1采用默认参数
fxpefac(x1,fs) 直接输入样本序列和采样率
Style 2:可以对帧长,模式进行一下设置,第一个和第二个参数不可缺省,第三个参数为帧长,单位为秒,第四个参数可选项有'g'、‘G’、‘x’。
例如这里就随便设置了一组,下图便是其对应的输出图形:
fxpefac(x1,fs,[0.07],'G')
3.参考文献
[1] S. Gonzalez and M. Brookes. PEFAC - a pitch estimation algorithm robust to high levels of noise.IEEE Trans. Audio, Speech, Language Processing, 22 (2): 518-530, Feb. 2014.doi: 10.1109/TASLP.2013.2295918.
[2] S.Gonzalez and M. Brookes,A pitch estimation filter robust to high levels of noise (PEFAC), Proc EUSIPCO,Aug 2011.
[3] 张晖, 苏红, 张学良,等. 基于卷积神经网络的鲁棒性基音检测方法[J]. 自动化学报, 2016, 42(006):959-964.