自用学习论文之一种用于阵列几何不可知的多通道个性化语音增强的模型

ONE MODEL TO ENHANCE THEM ALL: ARRAY GEOMETRY AGNOSTIC MULTI-CHANNEL PERSONALIZED SPEECH ENHANCEMENT

第一章 语音增强之《一种用于阵列几何不可知的多通道个性化语音增强的模型》



前言

语音新手入门,学习读懂论文。
本文作者机构是微软和俄亥俄州立大学
在这里插入图片描述


一、做了什么

一个阵列几何无关的PSE模型,该模型无论麦克风的数量和阵列形状如何都可以工作。

二、动机

最近,研究领域出现了“个性化”SE方法,该方法利用目标说话者的注册话语作为附加信息,既可以抑制环境噪声和混响,又可以去除干扰语音。采用传声器阵列可以进一步提高SE的性能。在多麦克风的情况下,可以提取空间信息并与频谱信息结合,得到更好的SE模型。

三、挑战

1.在多个麦克风阵列设备上使用,而无需额外的操作。
2.在目标和干扰扬声器与阵列具有相似角度或距离的挑战性条件下,检查扬声器嵌入和空间特征的影响。

四、方法

1.模型图

在这里插入图片描述
stream pooling 流池化,流表示麦克风张量。
我们在单通道PSE模型的基础上构建了多通道模型,该模型使用pDCCRN进行复值域的频谱映射。pDCCRN具有U-Net架构,其中包含编码器和解码器块以及介于两者之间的两个复杂LSTM层。每个块包含复杂的二维卷积层,然后是复杂的批处理归一化。复杂层由两个独立的实值层组成,它们分别作用于层输入的实部和虚部。我们使用6个编码器层。均方误差(MSE)损失函数。是因果关系,是实时操作。

2. 多通道PSE固定麦克风阵列

在第一种方法中,所有麦克风STFT的实部和虚部在通道维度©中堆叠,该输入被馈送到PSE模型。通过这种简单的扩展,模型可以隐式学习频谱和空间信息。
在第二种方法中,我们显式提取空间信息。使用信道间相位差(IPD)作为空间特征。计算第一个麦克风和其他每个M−1麦克风之间的IPD特征。对于每一对,我们将IPD特征的余弦和正弦值连接起来。最后,我们叠加所有IPD特征,以及第一个麦克风STFT的实部和虚部,形成输入特征。

3.几何不可知论建模

在这里插入图片描述
通过简单地取所有输入麦克风的平均值来创建一个虚拟麦克风信号Yv。我们提取每个麦克风相对于虚拟麦克风的IPD特征。
在这里插入图片描述
我们还使用无偏指数加权移动平均对IPD特征进行了归一化,以增加模型对任意阵列几何形状的鲁棒性。与固定几何模型相比,我们发现对于几何不可知模型来说,IPD归一化至关重要,因为在训练和测试过程中麦克风的排列可能不同。
在pDCCRN的输出层,我们使用全局池层对所有流和通道进行平均以估计复杂掩码。

4.数据集

DNS挑战数据集的干净语音数据模拟了2000小时和50小时的音频。我们使用7通道圆形阵列和从它派生的3个其他几何形状来训练我们的几何无关模型:4通道三角形,4通道矩形和6通道圆形阵列。基于单词错误率(WER)和两个信号质量指标,即信号失真比(SDR)和短时客观可理解度(STOI)来评估增强的语音信号。
我们创建了两个10小时的测试数据集,分别是A和B。数据集A包含了只与环境噪声和混响混合的话语。相比之下,数据集B包含混合了环境噪声、混响和干扰语音的话语。

五、实验评价

1.实验结果

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述


六、结论

在这项工作中,我们利用空间特征和说话人嵌入进行个性化语音增强,并表明它们的结合显著提高了ASR和信号质量的性能。此外,我们提出了一个新的架构,并引入了流池层来执行多通道PSE与任何数量和排列的麦克风,在某种程度上,输出是不变的麦克风顺序。我们提出的模型始终优于几何相关模型。未来的挑战包括减轻空间混叠问题。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值