《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》

qq_46079584

已于 2022-05-12 19:08:04 修改

阅读量1.3k

点赞数 1

文章标签：音视频其他深度学习

于 2022-05-11 16:11:50 首次发布

本文链接：https://blog.csdn.net/qq_46079584/article/details/124711730

版权

该论文提出了一种名为TES-PSE的两阶段网络方法，用于个性化语音增强，即说话人提取。第一阶段利用ECAPA-TDNN网络估计幅度谱，与带噪相位结合得到初步复数谱。第二阶段则通过后处理模块进一步净化信号，处理相位信息。网络使用了四种损失函数进行训练。实验在DNS挑战赛数据集上进行，采用VoxCeleb2和DNS数据集分别训练说话人编码器和增强网络，并在多种测试集上展示优秀性能。

摘要由CSDN通过智能技术生成

ABSTRACT

这篇论文提出了两阶段的网络，用ECAPA-TDNN作为获取说话人向量的网络，实现了很好的性能。第一个阶段的网络只是单单的估计幅度谱，和带噪的相位结合起来得到粗糙的复数谱，第二阶段，一个附属的网络作为一个后处理模块，进一步去除掉残余的噪声和人为干扰的声音。同时，相位信息也被跟着改变了。整个大网络用了四个损失组合成最终的损失。

INTRODUCTION

Personalized speech enhancement (PSE)，也叫做说话人提取，目标是从一个复杂的多个说话人和混响的环境中提取出想要的那个说话人。多用于实时的环境中。这个比赛有两个通道，一个是没有目标说话人作为先验知识的，另一个是作为有目标说话人作为先验知识的。本文选择了通道2，有目标说话人作为先验知识的。选择做实时的语音，就需要考虑到模型的大小，验证的时间，并且不能用到未来的东西。本文提到的算法不仅仅是用来去噪去混响的，还需要考虑到有干扰的说话人。所以考虑到多阶段的优势，本文也采用多阶段的方法实现目标。

本文提到的网络叫做TES-PSE，主要是由两个模块组成，一个是说话人的编码器，提取说话人的特征，另一个是增强的网络。采用了ECAPA-TDNN作为提取说话人特征的网络。先训练出来这个网络，之后再把这个网络的参数冻结，训练第二个增强的网络。使用第一个说话人提取网络，最终会提取到256维度的特征。

增强的网络：第一阶段，只估计幅度谱，最后将估计到的幅度谱和带噪相位结合得到粗粒度的复数谱，复数谱进入到第二个阶段，进一步估计实部和虚部。其中，幅度谱采用了功率谱压缩。因为有混响，有混响存在的情况下，功率谱压缩是比较有用的一种方法。

第一阶段和第二阶段的网络和下图类似：

ECAPA-TDNN：

res2block:

损失函数采用了三种：SISDR,一个对称的函数,一个幅度谱的函数。还有一个实虚部的函数。

实验数据用的格式DNS挑战赛的数据集。训练的数据，在提取说话人那个网络里面，用到的数据是VoxCelsb2语料库，在增强的网络里面，用到的数据集是DNS数据集。测试集用到三种，第一种是模拟的数据集，用到的是KING-ASR-215。第二种是官方给到的开发集。第三种是官方给到的黑盒测试集。

用到了一些数据增强：

把原始语音随机选取一部分填充为0；

用时频域的掩码应用到输入的频谱上；

增强一种额外的噪声；

增强一种额外的混响；

速度扰动，范围在（0.9，1.1）；

同时增强噪声和混响；

实验的结果：

qq_46079584

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫