MULTI-CHANNEL SPEECH ENHANCEMENT USING GRAPH NEURAL NETWORKS 文献翻译

MULTI-CHANNEL SPEECH ENHANCEMENT USING GRAPH NEURAL NETWORKS 文献翻译

来自于脸书实验室的一篇文章,将图神经网络用在了多通道语音增强上面,思路比较新奇,下面可以通篇看一下翻译的中文,有哪些值得我们去借鉴的思想。

摘要

多通道语音增强旨在使用从多个麦克风捕获的信号从有噪声的混合信号中提取干净的语音。最近提出的方法通过将深度神经网络模型与空间滤波技术(例如最小方差无失真响应(MVDR)波束形成器)相结合来解决这个问题。在本文中,我们通过将每个音频通道视为位于非欧几里得空间中的节点,特别是图,来介绍不同的研究方向。这个公式允许我们应用图神经网络(GNN)来寻找不同通道(节点)之间的空间相关性。我们通过将图卷积网络(GCN)合并到U-Net架构的嵌入空间中来利用它们。我们使用LibriSpeech数据集和模拟房间声学数据,使用不同的阵列类型和麦克风数量来广泛实验我们的方法。结果表明,与现有的最先进的方法相比,我们的方法具有优越性。

1 引言

人类可以自然地将他们的听觉系统集中在一个单一的声源上,而在认知上忽略其他声音。大脑在困难的嘈杂场景中执行这种任务的确切机制,通常被称为鸡尾酒会问题[1],但这种机制仍然没有完全被理解。然而,研究表明双耳处理可以帮助缓解这个问题[2]。空间信息有助于听觉系统将来自特定方向的声音分组,并将它们与其他方向的干扰声音分开。(说问题,引出多通道是有效解决方案)

多通道语音增强是使用多个麦克风增强被背景干扰破坏的目标语音的过程。它对许多应用非常重要,包括但不限于人机界面[3]、移动通信[4]和助听器[5,6]。(应用场景丰富)

虽然这个问题已经研究了很长时间,但它仍然是一个具有挑战性的问题。目标的语音信号不仅会被其他声源破坏,还会被表面反射的混响破坏。传统方法包括空间滤波方法[7,8],这些方法通常利用声音场景的空间信息,例如目标语音的角度位置和麦克风阵列配置。这些方法通常被称为波束成形,这是一种线性处理模型,它在时间-频率域中加权(“屏蔽”)不同的麦克风通道,以便抑制不是目标声源的源信号分量。在最小方差无失真响应(MVDR) [9]波束形成器的情况下,首先重新估计期望的源传递函数和噪声协方差矩阵,通常是功率谱密度(PSD)矩阵,然后计算波束形成权重并将其应用于信号。虽然这些方法可以很好地执行,但是它们的性能依赖于空间信息的可靠估计,这对于在噪声条件下精确估计是有挑战性的。(传统方法的不足)

深度神经网络(DNN)已广泛应用于各种音频任务,如情感识别[10]、自动语音识别[11]和语音增强与分离[12]。对于多通道处理,它们已经与传统的空间滤波方法结合在一起,例如传统的滤波器和波束形成器。这主要通过两种方式实现,两种方式都应用于频域。在一种方法中,使用DNN直接预测波束成形权重[13]。在第二种方法中,使用DNN估计应用于信号的短时傅立叶变换(STFT)的掩模,从而计算PSD矩阵[14]。然后,应用波束形成方法,例如MVDR,其使用PSD矩阵[15,16,14]计算滤波器系数。这些方法以不同的方式使用DNN方法,但是,每种方法的最终目标都是相同的,即预测滤波器系数。然而,最近,音频社区出现了一种转变,将注意力机制纳入深度神经网络架构[17],以隐式执行空间滤波。(简述DNN用在多通道处理的方法)

本文提出了一种新的多通道语音增强和去混响方法,而不是使用带有DNN或注意机制的传统波束形成方法。具体来说,我们将每个音频通道视为位于非欧几里得空间中,更具体地说,是一个从观察中获得的图形。以这种方式表述问题允许我们利用图神经网络(GNN)领域的方法[18],并以端到端的方式执行我们的训练。此外,学习图形结构允许网络根据动态声音场景调整其结构。据我们所知,这是第一种通过图来表示多通道语音增强和去混响并使用图神经网络来解决它的方法。 (第一篇使用图神经网络来处理多通道语音增强问题)

我们的方法依赖于短时傅里叶变换(STFT)域中的复数混合的实部和虚部,并估计参考麦克风的复数比率掩模(CRM)。然后将CRM应用于混合STFT,以获得干净的语音。我们将我们提出的方法应用于同步语音增强和去混响任务。为此,我们利用LibriSpeech [19]数据集模拟数据。特别是,我们模拟不同麦克风阵列配置的数据-线性、圆形和分布式,同时改变麦克风的数量。我们在实验中使用短时客观可懂度(STOI) [20]、语音质量感知评估(PESQ) [21]和信号失真比(SDR) [22]作为评估指标。我们还表明,我们的方法优于最近提出的基于神经网络的多通道语音增强方法。

image-20210719095753564

Fig.1. 提出了一种基于图神经网络的多通道语音增强模型。计算每个麦克风信号的复频谱图,并将其传递给编码器。每个通道的提取表示被传递到图卷积网络,用于空间特征学习。每个通道的提取特征被传递到解码器,并且执行解码器输出的加权和。输出(复数)乘以参考麦克风复频谱图,以产生干净的频谱图。

2 图神经网络

图神经网络(GNN) [18]是传统神经网络的推广,旨在以图的形式对非欧几里德数据进行操作。图表在如何表示和构造数据方面提供了相当大的灵活性,而神经网络允许人们操作和推广神经网络方法来绘制结构化数据。GNN的一种特殊类型是图卷积神经网络,它基于通过共享权重学习的原理,类似于卷积神经网络[23]。广义而言,有两种方法可以构建图卷积神经网络,即谱图神经网络和空间图神经网络[24,25,26]。谱图神经网络是基于谱图理论。更具体地说,图处理基于图拉普拉斯的特征分解,用于计算图信号的傅立叶变换,通过该变换定义图滤波操作。空间图卷积网络直接在图数据上定义卷积,并试图通过共享权重从相邻节点聚集信息来捕获信息。空间图卷积网络的计算复杂度较低,并且可以更好地推广到不同的图。而谱图卷积网络在固定图上运行,空间图神经网络具有在每个节点上局部工作的灵活性,而不考虑整个固定图。然而,它们需要节点排序。

我们提出的方法的一个关键方面是我们根据手头的任务动态地构建图。这种动态图构建方法使这个框架能够以特定于样本的方式获取每个音频的多声道信息。

3 多通道图处理

我们提出的框架示意性地显示在图1中。来自每个通道的音频信号被转换成时间-频率(T-F)表示,该表示被送到神经网络框架。输入首先通过编码器网络,该网络试图从输入中学习更高级别的特征(第3.1节)。然后,音频通道的这些特征表示被用于构建一个图,该图通过其节点和边缘捕获多通道信息。此时,我们使用GCNs(第3.3节)来聚合来自每个麦克风的信息。图中每个节点的输出表示作为输入传递给解码器,然后解码器将信号转换回原始尺寸。最后,计算解码器输出的加权和,并将其(复数)乘以参考麦克风的STFT,以计算干净的STFT。

3.1 音频表示学习

我们提出的框架的第一个主要步骤是学习来自每个麦克风的音频信号的表示。为此,首先通过短时傅立叶变换(STFT)将音频信号转换为时频表示。这个复数的实部和虚部叠加在一起,得到大小为2 × T × F的2通道张量,其中T代表时间段的总数,F代表频率仓的总数。考虑到所有M个通道,它导致框架的M × 2 × T × F维输入。

我们利用一个U-Net架构[27]来学习输入的表示。基于U-Net的体系结构已被证明对语音增强效果良好[28]。每个通道的复数图被传递到编码器。由编码器产生的表示用于获得多通道图。解码器输出与输入相同维数的M个张量。我们使用注意层将这些张量组合成统一的表示,即它们的加权和。

3.2 图结构

传统上,基于信号处理的方法已经用于从由多个麦克风捕获的音频信号中提取信息。在这里,我们提出了一种通过图形处理提取多通道信息的新方法。该过程的第一步是使用在前一步中获得的不同通道的音频表示来构建图表

我们构造一个无向图 $ G = (V,E) , 其 中 ,其中 ,V 表 示 图 的 节 点 集 , 比 如 麦 克 风 , 表示图的节点集,比如麦克风, E$ 表示两个节点之间的图的边 ( v i , v j ) (v_i,v_j) (vi,v

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值