自用学习论文之一种用于阵列几何不可知的多通道个性化语音增强的模型

最新推荐文章于 2024-10-06 20:54:02 发布

budangdiyi

最新推荐文章于 2024-10-06 20:54:02 发布

阅读量84

点赞数

文章标签：学习人工智能语音识别

本文链接：https://blog.csdn.net/budangdiyi/article/details/134549250

版权

ONE MODEL TO ENHANCE THEM ALL: ARRAY GEOMETRY AGNOSTIC MULTI-CHANNEL PERSONALIZED SPEECH ENHANCEMENT

第一章语音增强之《一种用于阵列几何不可知的多通道个性化语音增强的模型》

文章目录

ONE MODEL TO ENHANCE THEM ALL: ARRAY GEOMETRY AGNOSTIC MULTI-CHANNEL PERSONALIZED SPEECH ENHANCEMENT
前言
一、做了什么
二、动机
三、挑战
四、方法
五、实验评价
- 1.实验结果
六、结论

前言

语音新手入门，学习读懂论文。
本文作者机构是微软和俄亥俄州立大学
在这里插入图片描述

一、做了什么

一个阵列几何无关的PSE模型，该模型无论麦克风的数量和阵列形状如何都可以工作。

二、动机

最近，研究领域出现了“个性化”SE方法，该方法利用目标说话者的注册话语作为附加信息，既可以抑制环境噪声和混响，又可以去除干扰语音。采用传声器阵列可以进一步提高SE的性能。在多麦克风的情况下，可以提取空间信息并与频谱信息结合，得到更好的SE模型。

三、挑战

1.在多个麦克风阵列设备上使用，而无需额外的操作。
2.在目标和干扰扬声器与阵列具有相似角度或距离的挑战性条件下，检查扬声器嵌入和空间特征的影响。

四、方法

1.模型图

在这里插入图片描述
stream pooling 流池化，流表示麦克风张量。
我们在单通道PSE模型的基础上构建了多通道模型，该模型使用pDCCRN进行复值域的频谱映射。pDCCRN具有U-Net架构，其中包含编码器和解码器块以及介于两者之间的两个复杂LSTM层。每个块包含复杂的二维卷积层，然后是复杂的批处理归一化。复杂层由两个独立的实值层组成，它们分别作用于层输入的实部和虚部。我们使用6个编码器层。均方误差(MSE)损失函数。是因果关系，是实时操作。

2. 多通道PSE固定麦克风阵列

在第一种方法中，所有麦克风STFT的实部和虚部在通道维度©中堆叠，该输入被馈送到PSE模型。通过这种简单的扩展，模型可以隐式学习频谱和空间信息。
在第二种方法中，我们显式提取空间信息。使用信道间相位差(IPD)作为空间特征。计算第一个麦克风和其他每个M−1麦克风之间的IPD特征。对于每一对，我们将IPD特征的余弦和正弦值连接起来。最后，我们叠加所有IPD特征，以及第一个麦克风STFT的实部和虚部，形成输入特征。

3.几何不可知论建模

在这里插入图片描述
通过简单地取所有输入麦克风的平均值来创建一个虚拟麦克风信号Yv。我们提取每个麦克风相对于虚拟麦克风的IPD特征。

我们还使用无偏指数加权移动平均对IPD特征进行了归一化，以增加模型对任意阵列几何形状的鲁棒性。与固定几何模型相比，我们发现对于几何不可知模型来说，IPD归一化至关重要，因为在训练和测试过程中麦克风的排列可能不同。
在pDCCRN的输出层，我们使用全局池层对所有流和通道进行平均以估计复杂掩码。

4.数据集

DNS挑战数据集的干净语音数据模拟了2000小时和50小时的音频。我们使用7通道圆形阵列和从它派生的3个其他几何形状来训练我们的几何无关模型:4通道三角形，4通道矩形和6通道圆形阵列。基于单词错误率(WER)和两个信号质量指标，即信号失真比(SDR)和短时客观可理解度(STOI)来评估增强的语音信号。
我们创建了两个10小时的测试数据集，分别是A和B。数据集A包含了只与环境噪声和混响混合的话语。相比之下，数据集B包含混合了环境噪声、混响和干扰语音的话语。

五、实验评价

1.实验结果

在这里插入图片描述

六、结论

在这项工作中，我们利用空间特征和说话人嵌入进行个性化语音增强，并表明它们的结合显著提高了ASR和信号质量的性能。此外，我们提出了一个新的架构，并引入了流池层来执行多通道PSE与任何数量和排列的麦克风，在某种程度上，输出是不变的麦克风顺序。我们提出的模型始终优于几何相关模型。未来的挑战包括减轻空间混叠问题。