《PercepNet+: A Phase and SNR Aware PercepNet for Real-Time SpeechEnhancement》论文阅读

最新推荐文章于 2024-09-29 09:45:22 发布

qq_46079584

最新推荐文章于 2024-09-29 09:45:22 发布

阅读量834

点赞数

文章标签：音视频其他

本文链接：https://blog.csdn.net/qq_46079584/article/details/124468031

版权

ABSTRACT

PercepNet+是PercepNet的一个扩展版本，因为PercepNet存在很多问题，所以PercepNet+在PercepNet的基础上改进了一些。首先，引入了将相位信息放到PercepNet+里面，通过加入复数特征获取一个复数子带增益；之后，一个信噪比的估计器和一个信噪比转换后处理解决在高信噪比下产生的过衰减问题；再然后，把模型里面的GRU用TFGRU替换掉了，好处是可以既整合时域特征，也可以整合频域的特征；最后，最终的损失改为了复数子带增益，信噪比，音高滤波强度和过衰减损失，这个损失是用一种多目标的学习方式使用的。

INTRODUCTION

PercepNet是在全频带上处理数据的，PercepNet的特点就是在0-20Khz的短时傅里叶频谱上只有34个频带，可以降低计算复杂度，结合音高滤波器和谱包络处理模块，可以产生更高的语音质量。

但是，作者发现，低信噪比下增强的语音和高信噪比下增强的语音相比，高信噪比下会出现过衰减的问题。这样就会导致损害语音质量的问题。

本文总共做了四个方面的贡献：第一，相位感知结构引入可以使用相位信息，通过把复数子带的特征作为网络的输入，得到子带实部和虚部的增益，代替原来的能力增益，用于干净语音的构造。第二，为了处理过衰减的问题以及减小高信噪比下带噪语音的损坏问题，设计了信噪比估计器和信噪比转换后处理模块来控制残余噪声移除的程度，第三，用TFGRU代替了GRU实现时域和频域信息的结合，第四，提出了多目标训练方式，因为会有多个损失函数。

原始网络PercepNet

从34个三角形谱带中提取手工ERB子带特征作为模型的输入，输出是一个能量增益，之后这个增益和带噪语音的音高滤波谱去移除噪声，音高滤波器是一个梳状的滤波器，用来移除谐波当中的噪声。 PercepNet用了30ms的前看特征，所以是一个非实时非因果的网络。

改进PercepNet+

在这个结构中，直接将带噪语音在ERB频带的实部和虚部拼接起来，形成了一个68维的特征，通过一个FC层之后，和原始的70维特征结合起来送入到网络里面，模型的输出由原来的增益改为复数的增益，这样可以更加关注相位信息。增益可以利用公式重建纯净语音。

信噪比估计器

在 PercepNet，移除噪声的过程会引入失真，所以用了一个信噪比估计器，是由一个GRU和一个FC组成，预测到每一帧的信噪比，这样可以更好的保持语音的质量，根据公式，可以得到估计的信噪比。

信噪比转换后处理模块

设定一个阈值，如果预测到的信噪比要比阈值高，通过增益得到的增强谱就可以直接作为最终的额输出，如果小于的话，就进一步的处理残余的噪声。

多个目标的损失

原始的 PercepNet是用了两个损失，PercepNet+在原始的两个损失上面又增加了两个损失，信噪比估计器的损失用的是MSE，根据公式可以看到。

数据集就是用到的公共的数据集，训练的时候有一部分的数据是有混响的。在全频带上面做的。

实验结果

这个是 PercepNet和RNNoise在不同的数据量下的实现结果，1，3要比2，4，的多。后面的对比拿的是2，4的模型结果对比的。

这个是PercepNet+的结果。

这个是损失的对结果：

qq_46079584

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫