matlab对语音进行基音检测（基于matlab voicebox 工具包）

最新推荐文章于 2024-01-17 09:27:31 发布

王延凯的博客

最新推荐文章于 2024-01-17 09:27:31 发布

阅读量2.4k

点赞数 1

分类专栏：语音识别文章标签：基音检测语音识别语谱图 PEFAC

本文链接：https://blog.csdn.net/weixin_38468077/article/details/115382032

版权

语音识别专栏收录该内容

15 篇文章 6 订阅

订阅专栏

0.背景研究

基音频率, 简称基频, 它决定了语音的音高. 在语音信号处理中, 基频信息可应用于语音识别、语音压缩编码以及语音分离等领域。
2014年Gonzalez 提出了非线性地基因检测语谱图特征PEFAC, 截至目前该特征已被证明具有较好的鲁棒性.且被广泛的应作基音检测和语音识别特征，近些年一些学者将PEFAC语谱图输入到CNN,DNN等深度神经网络中进行各项语音实验。
在这里插入图片描述
短时语音信号可以表示为一系列谐波的加权和, 其中第1 个谐波即为基频, 记做F0, 其他谐波均为F0 的整数倍.在上边的语谱图中, 这些谐波表现为一条条相互平行的深色曲线. 图中最下面一条曲线即代表基频, 并且每两条相邻曲线之间的距离也是一个基频.
需要指出的是PEFAC语谱图特征在频率维度上是对数尺度(Logarithmic scale) 的.
在这里插入图片描述
表现在语谱图上即是这样：

1.需要用到的工具箱

voicebox官网路径：voicebox官网链接
安装教程请戳这里：voicebox安装教程

2.参数说明及调用

2.1 参数说明

%V_FXPEFAC PEFAC pitch tracker [FX,TT,PV,FV]=(S,FS,TINC,M,PP)
%
% Input:   s(ns)      Speech signal              						读取出的语音序列
%          fs         Sample frequency (Hz)      						采样率，根据对应的语音来设置
%          tinc       Time increment between frames (s) [0.01]   		设置帧长
%                     or [start increment end]
%          m          mode   设置模式，可以选择下边三种不同的模式
%                     'g' plot graph showing waveform and pitch
%                     'G' plot spectrogram with superimposed pitch using
%                         options pp.sopt [default: 'ilcwpf']
%                     'x' use external files for algorithm parameter
%                         initialization: fxpefac_g and fxpefac_w
%          pp         structure containing algorithm parameters    		 一般不做要求
%
% Outputs: fx(nframe)     Estimated pitch (Hz)
%          tx(nframe)     Time at the centre of each frame (seconds).
%          pv(nframe)     Probability of the frame of being voiced
%          fv             structure containing feature vectors
%                           fv.vuvfea(nframe,2) = voiced/unvoiced GMM features

2.2 调用

掉用可以按照以下格式

1. Style 1采用默认参数
							fxpefac(x1,fs)     直接输入样本序列和采样率

在这里插入图片描述

Style 2：可以对帧长，模式进行一下设置，第一个和第二个参数不可缺省,第三个参数为帧长，单位为秒，第四个参数可选项有'g'、‘G’、‘x’。
例如这里就随便设置了一组，下图便是其对应的输出图形：
				fxpefac(x1,fs,[0.07],'G')

在这里插入图片描述

3.参考文献

[1] S. Gonzalez and M. Brookes. PEFAC - a pitch estimation algorithm robust to high levels of noise.IEEE Trans. Audio, Speech, Language Processing, 22 (2): 518-530, Feb. 2014.doi: 10.1109/TASLP.2013.2295918.
[2] S.Gonzalez and M. Brookes,A pitch estimation filter robust to high levels of noise (PEFAC), Proc EUSIPCO,Aug 2011.
[3] 张晖, 苏红, 张学良,等. 基于卷积神经网络的鲁棒性基音检测方法[J]. 自动化学报, 2016, 42(006):959-964.