语音降噪论文“A Hybrid Approach for Speech Enhancement ...“的研读

最近认真的研读了一篇关于语音降噪的论文(A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phoneme Classifier)。它是一种利用混合模型降噪的方法,即既利用了生成模型(MoG高斯模型),也利用了判别模型(神经网络NN模型)。本文根据自己的理解对原理做了梳理。

 

论文是基于“Speech Enhancement Using a Mixture-Maximum Model”提出的MixMAX模型的。假设噪声是加性噪声,干净语音为x(t),噪声为y(t),则在时域带噪语音z(t)可以表示为z(t) = x(t) + y(t)。对z(t)做短时傅里叶变换(STFT)得到Z(k),再取对数谱(log-spectral)可得到Zk(k表示对数谱的第k维,即对数谱的第k个频段(frequency bin)。若做STFT的样本有L个,则对数谱的维数是 L/2 + 1)。相应的可得到Xk和Yk。MixMAX模型是指加噪后语音的每个频段上的值Zk是对应的Xk和Yk中的大值,即 = MAX(Xk, Yk)。

 

语音x由音素组成,设定一个音素可用一个高斯表示。假设音素有m个,则干净语音的密度函数f(x)可以表示成下式:

 

fi(x)表示第i个音素的密度函数。由于x是用多维的对数谱表示的,且各维向量之间相互独立,所以fi(x)可以表示成各维向量的密度函数fi,k(xk)的乘积。各维的密度函数表示如下式  

μi,k表示这一维上的均值,δi,k表示这一维上的方差。ci表示这个音素所占的权重,权重的加权和要为1。

 

噪声y只用一个高斯表示。同语音一样,y也是用多维的对数谱表示的,y的密度函数可以表示如下:

                 

同样gk(yk)表示如下:

 

对于y每一维上的密度函数,其概率分布函数Gk(y)为:

 

其中erf()为误差函数,表示如下:

     

同理可求得干净语音中每个音素的每一维上的概率分布函数,如下式:

 

对于带噪语音Z来说,当语音音素给定时(即i给定时)其对数谱的第k维分量Zk的分布函数Hi,k(z)可以通过下式求得:

     

上式就是求I = i时的条件概率。由于X和Y相互独立,就变成了X和Y的第k维向量上的分布函数的乘积。对Zk的分布函数Hi,k(z)求导,就得到了的密度函数hi,k(z),表示如下:

        

所以z的密度函数h(z)通过下式求得:

      

 带噪语音Z已知,我们的目标是要根据带噪语音估计出干净语音X,即求出Z已知条件下的X的条件期望。基于MMSE估计,X的条件期望/估计表示如下:

       

上式中X的条件期望又转换成了每个音素条件期望的加权和。条件概率q(i | Z = z)可根据全概率公式得到,如下:

             

对于每个音素的条件期望,表示如下:。对于每个音素的对数谱的每一维的条件期望,表示如下:

      

其中:

     

定义 ,可以推得x的对数谱的每一维上的估计如下式:

     

可以把用基于谱减的替代,其中β表示消噪程度。ρk可以看成是干净语音的概率。所以

     

抵消掉正负项,可得:

    

上式就是求消噪后的语音的对数谱的每维向量的数学表达式。zk可根据带噪语音求得,β要tuning,知道ρk后xk的估计就可得到了。对得到的每维向量做反变换,可得到消噪后的时域的值。

 

上文已给出,其中p(I = i | Z = z)表示在Z已知下是每个音素可能的概率,或者说一帧带噪语音是每个音素的可能的概率,用pi表示。pi可以通过全概率公式求出,即。但对每种语言来说,总的音素的个数是已知的(比如英语中有39个音素),这样求每帧是某个音素的概率是一个典型的分类问题。神经网络(NN)处理分类问题是优于传统方法的,所以可以用NN来训练一个模型,处理时用这个模型来计算每帧属于各个音素的概率,即算出pi,再和ρi,k做乘累加(ρi,k用基于MOG模型的方法求出),就可得到ρk了()。有了ρk,xk的估计就可求出了。可以看出NN模型的作用是替换计算pi的传统方法,使计算pi更准确。

 

干净语音的高斯模型并不是用常规的EM算法训练得到的,而是基于一个已做好音素标注的语料库得到的,论文作者用的是TIMIT库。每帧跟一个音素一一对应,把属于一个音素的所有帧归为一类,算对数谱的各个向量的值,最后求均值和方差,得到这个向量的密度函数表达式,均值和方差的计算如下式:

    

其中Ni表示属于某一音素的帧的个数。一个音素的所有向量的密度表达式相乘,就得到了这个音素的密度函数表达式。再通过属于这个音素的帧数占所有帧数的比例得到权重

), 这样干净语音的高斯模型就建立好了。

 

对于非稳态噪声来说,噪声参数(μY,k和δY,k)最好能自适应。噪声参数的初始值可以通过每句话的前250毫秒求得(基于前250毫秒都是噪声的假设),求法同上面的干净语音的高斯模型,数学表达式如下:

   

噪声参数的更新基于以下算式:

  

其中α为平滑系数,0 < α < 1,也需要tuning。噪声参数(μY,k和δY,k)更新了,Gk(y)和gk(yk)就更新了,hi,k(z)也就更新了,从而ρi,k也更新了。

 

综上, 基于生成-判别混合模型的降噪算法如下:

1)  训练阶段

输入:

根据已标注好音素的语料库,得到对数谱向量z1,…zn(用于算MOG),MFCC向量v1,…,vn(用于NN训练)和每帧相对应的音素标签i1,…,in。

 

MoG 模型训练:

根据对数谱向量z1,…,zn算干净语音的MOG

 

NN模型训练:

根据(v1,i1),…(vn,…,in)训练一个基于音素的多分类模型

 

2)  推理阶段

输入:

带噪语音的对数谱向量以及MFCC向量

 

输出:

消噪后的语音

 

计算步骤:

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
This corpus contains a selection from the TIMIT Acoustic-Phonetic Continuous Speech Corpus, consisting of speech files, annotations,and associated materials: * 16 speakers from 8 dialect regions * 1 male and 1 female from each dialect region * total 130 sentences (10 sentences per speaker; note that some sentences are shared among other speakers, sa1 and sa2 are spoken by all speakers.) * total 160 sentence recordings (10 recordings per speaker) * audio format: wav format, single channel, 16kHz sampling, 16 bit sample, PCM encoding 数据相关论文: 使用该数据的论文: 暂无信息 来自万方数据的相关论文: 期刊论文 基于学习者英语语料的类联接研究概念、方法及例析 - 外语电化教学 - 2009(3) 期刊论文 基于HTK的连续语音识别系统及其在TIMIT上的实验 - 现代计算机(专业版) - 2009(11) 会议论文 Iterative Language Model Adaptation for Large Vocabulary Continuous Speech Recognition - 2011 4th IEEE International Conference on Computer Science and Information Technology(ICCSIT 2011)(2011年第四届IEEE计算机科学与信息技术国际会议) - 2011 会议论文 The Fixed-Point Optimization of Mel Frequency Cepstrum Coefficients for Speech Recognition - The 6th International Forum on Strategic Technology(IFOST 2011)(第六届国际战略技术论坛) - 2011 会议论文 语音编码对说话人识别系统的影响 - 第二届和谐人机环境联合(第15届全国多媒体技术、第2届全国人机交互、第2届全国普适计算)学术会议 - 2006 期刊论文 车载环境下基于样本熵的语音端点检测方法 - 计算机研究与发展 - 2011, 48(3) 会议论文 A Corpus-based Comparative Study of Company Profiles --A Case Study Between World Top-500 and Zhejiang Top-100 - 2010 Summit International Marketing Science and Management Technology Conference(2010年国际营销科学与管理技术大会) - 2010 期刊论文 留学生汉语中介语语料库建设若干问题探讨——以中山大学汉字偏误中介语语料库为例 - 语言文字应用 - 2012(2) 会议论文 A NON-FIXED-LENGTH SEQUENCES CLUSTERING APPROACH FOR SPEECH CORPUS REDUCTION - 2007 International Conference on Machine Learning and Cybernetics(IEEE第六届机器学习与控制论国际会议) - 2007 期刊论文 联想学习记忆的脑功能磁共振成像 - 中华神经科杂志 - 2008, 41(4)
鲁棒的GSC波束形成方法是一种用于语音增强的方法,它使用线性麦克风阵列。GSC(Generalized Sidelobe Canceller)是一种常见的用于语音增强的方法,它能够优化麦克风阵列的波束形成性能。 在这种方法中,首先使用线性麦克风阵列采集到的原始语音信号。然后,通过对麦克风信号进行预处理和声学模型建立,可以建立起麦克风阵列的声学特性。 在预处理阶段,可以使用一些降噪算法来去除噪声对语音信号的影响。例如,常用的算法包括谱减法、短时时域幅度估计(STSA)等。这些算法可以通过对麦克风阵列中的信号进行频谱分析和幅度估计来实现噪声的去除。 在声学模型建立阶段,通常会使用一些机器学习算法,例如统计模型(如高斯混合模型)或神经网络模型,来建立麦克风阵列的声学特性模型。这些模型可以通过对语音信号进行建模和预测来优化麦克风阵列的波束形成性能。 最后,在语音增强阶段,通过对预处理后的信号应用波束形成算法,可以将麦克风阵列的指向性增强到语音源的方向,从而增强语音信号的清晰度和质量。这样,用户在接收到语音信号时,可以更清晰地听到对方的声音,减小噪声对语音信号的干扰。 总之,通过采用线性麦克风阵列和GSC波束形成方法,我们可以实现对语音信号的鲁棒增强,提高语音清晰度和质量。同时,该方法还可以有效抑制噪声对语音信号的干扰,提高语音通信的可靠性和质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值