matlab对语音进行基音检测(基于matlab voicebox 工具包)

0.背景研究

基音频率, 简称基频, 它决定了语音的音高. 在语音信号处理中, 基频信息可应用于语音识别、语音压缩编码以及语音分离等领域。
2014年Gonzalez 提出了非线性地基因检测语谱图特征PEFAC, 截至目前该特征已被证明具有较好的鲁棒性.且被广泛的应作基音检测和语音识别特征,近些年一些学者将PEFAC语谱图输入到CNN,DNN等深度神经网络中进行各项语音实验。
在这里插入图片描述
短时语音信号可以表示为一系列谐波的加权和, 其中第1 个谐波即为基频, 记做F0, 其他谐波均为F0 的整数倍.在上边的语谱图中, 这些谐波表现为一条条相互平行的深色曲线. 图中最下面一条曲线即代表基频, 并且每两条相邻曲线之间的距离也是一个基频.
需要指出的是PEFAC语谱图特征在频率维度上是对数尺度(Logarithmic scale) 的.
在这里插入图片描述
表现在语谱图上即是这样:
在这里插入图片描述

1.需要用到的工具箱

voicebox官网路径:voicebox官网链接
安装教程请戳这里:voicebox安装教程

2.参数说明及调用

2.1 参数说明

%V_FXPEFAC PEFAC pitch tracker [FX,TT,PV,FV]=(S,FS,TINC,M,PP)
%
% Input:   s(ns)      Speech signal              						读取出的语音序列
%          fs         Sample frequency (Hz)      						采样率,根据对应的语音来设置
%          tinc       Time increment between frames (s) [0.01]   		设置帧长
%                     or [start increment end]
%          m          mode   设置模式,可以选择下边三种不同的模式
%                     'g' plot graph showing waveform and pitch
%                     'G' plot spectrogram with superimposed pitch using
%                         options pp.sopt [default: 'ilcwpf']
%                     'x' use external files for algorithm parameter
%                         initialization: fxpefac_g and fxpefac_w
%          pp         structure containing algorithm parameters    		 一般不做要求
%
% Outputs: fx(nframe)     Estimated pitch (Hz)
%          tx(nframe)     Time at the centre of each frame (seconds).
%          pv(nframe)     Probability of the frame of being voiced
%          fv             structure containing feature vectors
%                           fv.vuvfea(nframe,2) = voiced/unvoiced GMM features

2.2 调用

掉用可以按照以下格式

1. Style 1采用默认参数
							fxpefac(x1,fs)     直接输入样本序列和采样率

在这里插入图片描述

Style 2:可以对帧长,模式进行一下设置,第一个和第二个参数不可缺省,第三个参数为帧长,单位为秒,第四个参数可选项有'g'、‘G’、‘x’。
例如这里就随便设置了一组,下图便是其对应的输出图形:
				fxpefac(x1,fs,[0.07],'G')      
	

在这里插入图片描述

3.参考文献

[1] S. Gonzalez and M. Brookes. PEFAC - a pitch estimation algorithm robust to high levels of noise.IEEE Trans. Audio, Speech, Language Processing, 22 (2): 518-530, Feb. 2014.doi: 10.1109/TASLP.2013.2295918.
[2] S.Gonzalez and M. Brookes,A pitch estimation filter robust to high levels of noise (PEFAC), Proc EUSIPCO,Aug 2011.
[3] 张晖, 苏红, 张学良,等. 基于卷积神经网络的鲁棒性基音检测方法[J]. 自动化学报, 2016, 42(006):959-964.

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王延凯的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值