1 PNCC (阅读笔记)

题目:Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition

PNCC是一种语音特征提取的算法,类似于MFCC

PNCC处理的主要新特性包括:使用幂律非线性代替MFCC系数中使用的传统对数非线性。添加了基于非对称滤波抑制背景激励的噪声抑制算法和实现时间掩蔽的模块。

  • MFCC PLP PNCC 三种算法的过程
    关于MFCC和PLP的相关知识

    MFCC详细步骤
    在这里插入图片描述
    如果省略PNCC的阴影块,剩下的处理称为简单幂归一化倒谱系数(SPNCC)。

  • PNCC 算法的创新
    1.用幂律非线性代替MFCC处理中的对数非线性,更好地逼近信号强度与听觉神经发射率地关系。

    2.用50-120ms的“medium-time”processing代替20-30ms的短时傅里叶分析,这种方法使我们能够更准确地估计状态变化,同时保持对快速变化的语音信号的响应能力。

    3.使用一种“非对称非线性滤波”的形式来估计每个时间帧和频率带的背景噪声。

    4.一种实现时间掩蔽的信号处理块的开发。

    5.支持“在线”实时处理,不需要大量的非因果前瞻性的输入信号来计算PNCC系数。

  • PNCC处理的各部分组件

A .Initial processing

预加重滤波器:在这里插入图片描述
STFT Hamming windows duration: 25.6ms
DFT size :1024
sampling rate :16kHz
40 channels gammatone-shaped filter : 200-8000Hz
在这里插入图片描述
短时功率谱 :在这里插入图片描述
其中H_l是 第l个gamma通道的频率响应。m是指第几帧

B .Medium time power calculation
“medium time power” :
在这里插入图片描述
这里选择 M=2 (对应于5个连续窗口,持续时间65.6ms),M的选择对白噪声下的性能影响很大,对非平稳噪声和混响影响不是很大。

C .Asymmetric noise suppression(ANS)

PNCC处理中非对称噪声抑制(ANS)和时间掩蔽模块的框图
(以下处理都是对于每帧每通道的medium-time能量谱进行处理)
在这里插入图片描述
第一步 :Asymmetric Lowpass Filtering

在这里插入图片描述
图中,变化缓慢的下包络被当作估计的medium-time噪声能量谱,包络上方为估计的语音谱。所以Q_in减去Q_out来抑制噪声。Q_le[0,l]初始化为0.9Q[m,l]。

第二步:Q_le通过半波整流得到Q_0,让Q_0再通过一个AL滤波器获得下包络Q_f做为最低的阈值。Q_f与时域掩蔽的输出Q_tm比较大小,得到ANS的输出。
在这里插入图片描述
第三步:判断有无语音,论文中c=2 ,对白噪声情况下效果最佳,c取值对混响和背景音乐情况影响不大。
在这里插入图片描述
在这里插入图片描述
D .Temporal masking
在这里插入图片描述

λ_t =0.85 and u_t =0.2

时域掩蔽只运用在语音帧(excitation),目的是获得每个频率通道l的移动峰值,并抑制低于此包络线的瞬时功率。下图1是reverberation with T=0.5s,下图2为clean speech情况。
在这里插入图片描述

E .Spectral weight smoothing
在PNCC处理中,是基于时间帧子集和频率通道子集的响应,平滑跨通道的响应是有帮助的。PNCC处理中存在非线性和/或阈值,它们的影响因通道而异。

时间平均,频率平均传递函数 :(N=4 , L=40)
在这里插入图片描述
频率平均加权函数(the frequency averaged weighting function) :
在这里插入图片描述
F. Mean power normalization

使用归一化能量平均,是为了进一步减小PNCC中振幅缩放的潜在影响。
目前的PNCC在线实现中,我们通过输入功率除以总功率的运行平均值来对输入功率进行归一化。计算运行的平均功率估计µ[m] 的差分方差:
在这里插入图片描述
归一化功率U[m] :
在这里插入图片描述
λ_u=0.999,L是频率通道总数,k是任意的实数。

G. Rate-level nonlinearity

描述了频率通道中输入信号振幅与处理模型相应响应之间关系的非线性函数的重要性。文中写到声压指数为1/15的幂律曲线与生理数据相当吻合,同时在存在噪声的情况下优化了识别精度。
在这里插入图片描述
上式近似于该方程:
在这里插入图片描述
最后,给出使用了ANS,时域掩蔽,Rate-level nonlinearity前后的区别,上下图分别是使用前后。
在这里插入图片描述

  • 24
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值