论文翻译:TWO HEADS ARE BETTER THAN ONE: A TWO-STAGE APPROACH FOR MONAURAL NOISE REDUCTION IN THE COMPLEX

论文题目:TWO HEADS ARE BETTER THAN ONE: A TWO-STAGE APPROACH FOR MONAURAL NOISE REDUCTION IN THE COMPLEX DOMAIN

论文标题:两个头比一个头更好:复值域中单通道降噪的两级方法

论文地址:https://arxiv.org/abs/2011.01561v1

论文金句:

1、最近,相位的重要性开始被强调,因为它有助于提高低信噪比条件下的感知质量[6]。然而,由于其非结构化特征,相位通常难以估计。为此,提出了一些SE算法,这些算法大致可以分为两类。第一种算法试图在频域中隐含地恢复相位信息,在使用基于复杂频谱映射的网络时,频谱的实分量和虚分量(RI)都会被纳入优化范围[7]。第二种是在时域中绕过直接相位估计问题,将时域波形作为输入和输出[3, 8]。研究表明,噪声和语音成分在T-F域中往往更容易区分,同时网络在T-F域中也更容易训练[9],

2、这种网络设计逻辑的基本原理可以从两个方面来解释。一方面,有研究表明,多任务的幅值和相位无法同时获得最优解[15],尤其是在信噪比极低的情况下。例如,当通过估计RI分量来不断优化相位时,幅度估计可能会逐渐偏离其最佳优化路径。因此,两级网络拓扑结构可以将幅度和相位的多任务优化问题分解为两个子任务。另一方面,有研究表明,幅值和相位之间在 T-F 域存在潜在联系[16],因此第一阶段获得的相对 "干净 "的幅值可以促进第二阶段的相位恢复。

3、在[17]中,提出了一种名为时间卷积模块(TCM)的基于卷积的模块来取代传统的长期短期记忆单元(LSTM),以实现更好的时间序列建模。 

4、尽管TCM具有出色的性能,但其参数过多的缺点仍然很明显。具体来说,虽然采用深度卷积来提高参数效率,但随着通道维度增加到512,输入和输出1×1-conv中的参数数量仍然相对较多。为了进一步减轻参数负担,我们提出了一种轻量级的TCM变体,称为修改门控TCM(MG-TCM),

5、TCM通常堆叠起来以掌握更大的时间上下文区域,其中每个块中的膨胀率呈指数级增加。如果膨胀率变大,则更多的注意力放在长期依赖性上,从而忽略了局部区域的相关性。在这种情况下,我们进一步提出了名为DMG-TCM的MG-TCM的版本来解决这个问题, 

6、尽管扩张卷积很有效,但它可能存在所谓的“网格伪影”[18]。也就是说,输出中的连续单元是根据输入中完全独立的单元集计算的,并且实际的感受野是不同的。为了解决这个问题,Wang 和 Ji 等人。 [19]提出了平滑扩张卷积(SD-convs),其中在采用扩张卷积之前在相邻输入单元之间添加交互。在计算扩张卷积之前,会应用可分离和共享(SS)卷积。这里的 "可分离 "是指每个通道独立处理其核滤波器,而 "共享 "是指不同输入和输出通道共享核滤波器的参数。在本文中,所有的 D-convs 都由 SD-convs 代替,以减少伪影。 

摘要

在低信噪比条件下,很难同时有效地恢复幅度和相位信息。针对这一问题,本文提出了一种两阶段算法,将幅度和相位的联合优化问题解耦为两个子任务。在第一阶段,仅优化幅度,其结合带噪信号相位以获得粗略复值的干净语音频谱估计。在第二阶段,幅度和相位分量都被细化。实验在 WSJ0-SI84 语料库上进行,结果表明,所提出的方法在 PESQ、ESTOI 和 SDR 方面显着优于之前的基线。

索引术语——语音增强、两阶段、时间卷积模块、复杂域

1、简介

环境噪声和房间混响等各种干扰可能会导致自动语音识别 (ASR) 和助听设备的性能严重下降。尽管在过去的五年里做出了不懈的努力,但在低信噪比(SNR)和非稳态噪声条件下,语音增强(SE)(一种从噪声语音中提取纯净语音的技术)仍然是一项艰巨的挑战[1]。

近年来,深度神经网络(DNN)的快速发展促进了有监督​​语音增强算法的研究[2,3,4]。在传统的监督 SE 范式中,利用 DNN 从时频 (T-F) 域的噪声观测中提取干净的特征,例如理想比率掩模 (IRM) [5] 或对数功率谱 (LPS) [4 ]。出于这个目的,这些方法通常侧重于频谱幅度的估计,并且噪声相位保持不变以在时域中重建波形。

最近,相位的重要性开始被强调,因为它有助于提高低信噪比条件下的感知质量[6]。然而,由于其非结构化特征,相位通常难以估计。为此,提出了一些SE算法,这些算法大致可以分为两类。第一种算法试图在频域中隐含地恢复相位信息,在使用基于复杂频谱映射的网络时,频谱的实分量和虚分量(RI)都会被纳入优化范围[7]。第二种是在时域中绕过直接相位估计问题,将时域波形作为输入和输出[3, 8]。研究表明,噪声和语音成分在T-F域中往往更容易区分,同时网络在T-F域中也更容易训练[9],因此本研究重点关注T-F域中的SE。

多阶段学习已被证明在许多任务中比单阶段方法更有效,例如图像推导[10] 和 SE [11,12,13,14]。在多阶段学习协议中,原来的困难任务被分解为多个更容易的子任务,并且逐步改进估计的目标。受此启发,我们提出了一种基于复值频谱映射的两阶段网络(称为 CTS-Net),用于单声道语音增强。它由两个子网络组成,即粗幅度估计网络(简称 CME-Net)和复频谱细化网络(简称 CSR-Net)。在第一阶段,CME-Net 对目标频谱幅度(TMS)进行粗略估计,然后与噪声相位耦合,得到粗略估计的复频谱(称为粗频谱)。在第二阶段,CSR-Net 进一步完善复频谱,恢复实部和虚部(RI)。需要注意的是,我们在第二阶段并没有明确估计复频谱,而只是估计残余细节。这是因为在 CME-Net 中已经消除了大部分噪声干扰,而第二个网络旨在恢复干净的语音相位,进一步抑制残余噪声,并恢复第一阶段中缺失的一些频谱细节。

这种网络设计逻辑的基本原理可以从两个方面来解释。一方面,有研究表明,多任务的幅值和相位无法同时获得最优解[15],尤其是在信噪比极低的情况下。例如,当通过估计RI分量来不断优化相位时,幅度估计可能会逐渐偏离其最佳优化路径。因此,两级网络拓扑结构可以将幅度和相位的多任务优化问题分解为两个子任务。另一方面,有研究表明,幅值和相位之间在 T-F 域存在潜在联系[16],因此第一阶段获得的相对 "干净 "的幅值可以促进第二阶段的相位恢复。

在本文的其余部分安排如下。第 2 节阐述了问题。在第 3 节中,详细介绍了所提出的架构。第 4 节给出了实验结果和分析。第 5 节得出了一些结论。

2、问题表述

在时域中,单麦克风混合 x 通常表示为 x (t) = s (t) + n (t),其中 s 和 n 表示时间索引 t 中的干净信号和噪声信号。两边取短时傅里叶变换(STFT),我们有:

其中指的是带噪信号、干净语音和噪声的 STFT。 m和l分别表示频率索引和时间/帧索引。为了符号简单起见,当不引起混淆时,我们删除 (m, l)。

由于传统 SE 算法的非结构化特性,相位通常保持不变。然而,在笛卡尔坐标系中,相位可以用RI分量隐式表示,例如,这为相位估计提供了一个很有前景的方向。最近,Tan 等人[7]提出了一种采用卷积循环网络(CRN)的复值频谱映射方法,分别以带噪信号和干净信号的RI作为输入和目标。假设网络映射函数及其参数集分别为,则映射过程可以由下式给出:

其中表示估计的 RI。

3. 提出的架构

3.1.改进的门控时间卷积模块

在[17]中,提出了一种名为时间卷积模块(TCM)的基于卷积的模块来取代传统的长期短期记忆单元(LSTM),以实现更好的时间序列建模。TCM 的示意图如图 1 (a) 所示。它由三个主要部分组成,即输入 1×1-conv、内核大小为 3 的扩张深度卷积(DDconv)和输出 1×1-conv。假设输入大小为(256, T),其中256和T分别表示通道和时间轴。通道数首先加倍至 512 个,然后是 DD-conv。然后利用另一个 1×1-conv 层将通道切换回 256。采用残差连接来缓解梯度消失问题。

尽管TCM具有出色的性能,但其参数过多的缺点仍然很明显。具体来说,虽然采用深度卷积来提高参数效率,但随着通道维度增加到512,输入和输出1×1-conv中的参数数量仍然相对较多。为了进一步减轻参数负担,我们提出了一种轻量级的TCM变体,称为修改门控TCM(MG-TCM),如图1(b)所示。与原始的TCM(称为OTCM)相比,它有一些修改。首先,在输入 1×1-conv 后,通道维度减少到 64,从而显著减少了参数冗余。其次,考虑到深度卷积在特征变换中的能力有限,我们将其替换为内核大小为5的常规扩张卷积(D-conv),以掌握相邻帧之间的更多信息。第三,除了主分支之外,我们还添加了另一个分支,称为门分支,其结构与主分支类似,只是应用了 sigmoid 函数作为非线性来调制特征分布。如图1所示,如果忽略规范层和激活层的参数,O-TCM的参数数量为263,680,而MG-TCM的参数数量仅为53,248。

TCM通常堆叠起来以掌握更大的时间上下文区域,其中每个块中的膨胀率呈指数级增加。如果膨胀率变大,则更多的注意力放在长期依赖性上,从而忽略了局部区域的相关性。在这种情况下,我们进一步提出了名为DMG-TCM的MG-TCM的版本来解决这个问题,如图2所示。与MG-TCM相比,它有两个域,即原始域和双域。除了膨胀率之外,每个域内的模块细节与 MG-TCM 类似。假设原域中的膨胀率为,则双域中的膨胀率为。在我们的方法中,根据经验,M = 5 就足够了。当原始域中的dP较小时,例如dP = 1,原始域中的序列将更加关注局部相关性,则双域中的dD变为32,因此可以掌握更多长时相关性中的信息。这样,两个域在序列建模过程中相互补充。

图1.原始TCM与提出的MG-TCM之间的比较。(a)原始TCM图。 (b) 提出的 MGTCM 图表。

图 2. DMG-TCM 示意图。为了方便起见,省略了范数层和激活层。 “CAT”表示串联操作。

3.2.平滑扩张卷积

尽管扩张卷积很有效,但它可能存在所谓的“网格伪影”[18]。也就是说,输出中的连续单元是根据输入中完全独立的单元集计算的,并且实际的感受野是不同的。为了解决这个问题,Wang 和 Ji 等人。 [19]提出了平滑扩张卷积(SD-convs),其中在采用扩张卷积之前在相邻输入单元之间添加交互。在计算扩张卷积之前,会应用可分离和共享(SS)卷积。这里的 "可分离 "是指每个通道独立处理其核滤波器,而 "共享 "是指不同输入和输出通道共享核滤波器的参数。在本文中,所有的 D-convs 都由 SD-convs 代替,以减少伪影。

3.3.两阶段方法

我们提出的两阶段算法如图 3 所示。它包括两个处理阶段。在第一阶段,CME-Net接收带噪信号频谱的幅度来粗略估计干净语音的幅度,然后将其与带噪信号的相位耦合以获得粗略的复值频谱。在第二阶段,粗略估计的频谱和带噪信号频谱的实部和虚部被连接起来作为 CSR-Net 的输入。它不是直接细化复值频谱,而是仅捕获第一阶段可能丢失的频谱细节。形式上,计算过程表述为:

其中分别表示CME-Net和CSR-Net的映射函数。分别表示第一和第二网络的参数集。分别是 CME-Net 和 CSR-Net 的估计输出。分别指实数和虚数运算。

图 3.所提出的两阶段算法图。 (a)算法的处理流程。 (b) CME-Net 模型拓扑。(c) CSR-Net 模型拓扑。

网络细节如图3(b)-(c)所示。整体拓扑与[7]类似,包括三个主要组件,即卷积编码器、解码器和序列建模模块。我们没有使用 LSTM 作为序列模块,而是采用 TCM 来实现更好的序列学习。对于 CME-Net,我们堆叠了 18 个 MG-TCM,而 CSRNet  中采用了 12 个 DMG-TCMS。这是因为 DMG-TCM 比 MG-TCM 更能捕获长期和短期时间信息。在编码器和解码器中,均采用 5 个卷积块,每个卷积块包括一个(反)卷积层、实例归一化 [20] 和参数 ReLU(PReLU)[21]。除时间轴和频率轴上第一层的 (2, 5) 外,每个(反)卷积层的内核大小分别为 (2, 3)。时间和频率轴上的步幅设置为 (1, 2)。每个中间层的通道数为64。在第一个网络中,使用Softplus[22]作为输出激活函数来获取频谱的幅度,并在第二阶段使用线性函数来获取RI。注意与[7]类似,CSR-Net中使用两个解码器来获得RI估计

3.4.损失函数

我们采取以下策略来训练网络。首先,我们单独训练CME-Net直至收敛,损失定义为:

然后,联合训练第一阶段和第二阶段,其中第一阶段使用预训练模型进行初始化,总体损失定义为:

其中分别表示针对 RI 的损失优化和针对幅度的损失优化。 λ ∈ [0, 1] 控制第一个网络的损失权重。本文中,λ设置为0.1。

4、实验结果

4.1、数据集

我们使用 WSJ0-SI84 数据集 [23] 进行评估,其中包括 83 名说话者(42 名男性和 41 名女性)的 7138 条话语。 77 位说话者的 5428 条和 957 条话语分别被分割用于训练和验证。设置两种类型进行测试。对于第一种类型,说话人信息位于训练数据集中(称为“可见的说话人”),而对于第二种类型,说话人信息未经训练(称为“不可见的说话人”)。每种类型包括 150 个话语。我们从 DNSChallenge 2 中随机选择 20,000 个噪声,以获得 55 小时的噪声集进行训练。在每个混合过程中,生成随机剪切以获得噪声向量,随后将其与随机选择的干净话语混合。训练信噪比范围为[-5dB,0dB],间隔1dB。结果,总共建立了 50,000 个、4000 个噪声-干净对分别用于训练和验证。训练集总时长约为100小时。

为了进行测试,我们从 NOISEX92 [24] 中选择两个噪声,即 babble 和factory1。模型评估使用三个SNR,即-5dB、0dB和5dB。

4.2.参数设置

所有话语均以 16kHz 采样。使用 20ms 汉宁窗,相邻帧之间有 50% 的重叠。使用320点FFT。两个模型均由 Adam [25] 优化,β1 = 0.9,β2 = 0.999。在第一阶段,学习率(LR)设置为0.001。在第二阶段,对第一阶段的预训练模型进行微调,LR = 0.0001,而第二阶段的预训练模型为0.001。在话语级别将批量大小设置为16,其中最大语料长度为 8 秒,以保证训练的稳定性。

4.3.基线

我们采用三个最先进的基线进行比较,即 CRN [26]、TCNN [27] 和 GCRN [7]。 CRN是一种典型的具有编码器-解码器架构的卷积循环网络,并且仅估计幅度。 GCRN 是一种基于 CRN 的先进复值频谱映射网络,可估计幅度和相位。请注意,RI 和幅度均针对 GCRN 使用进行了优化。对于TCNN,波形直接用作输入和目标,并采用堆叠TCM进行序列建模。所有模型都使用因果配置进行训练,即不涉及未来信息。声音展示样本可在线获取。

4.4.结果与分析

在本研究中,选择 PESQ [28]、ESTOI [29] 和 SDR [30] 作为客观测量指标。

4.4.1.消融研究

表 1. 消融研究 w.r.t. TCM 类型和 SD 转换。 TCM(I)和TCM(II)分别表示第一阶段和第二阶段使用的TCM。 “O”、“MG”和“DMG”表示O-TCM、MG-TCM 和DMG-TCM。所有值均在测试集上取平均值。

我们研究了不同TCM和SD-conv的效果,如表1所示。从结果中,我们可以得到以下观察结果。首先,MG-TCM总体上比O-TCM取得了更好的性能。例如,当只有第一个时阶段训练后,CME+MG-TCM 在 PESQ 和 ESTOI 方面比 CME+O-TCM 获得了 0.04 和 0.50% 的改进,这验证了原始 TCM 的参数冗余。其次,当 MG-TCM 在第二阶段被其双域取代时,在所有三个指标上都取得了持续更好的性能。第三,与常规扩张卷积相比,SD-conv 在 PESQ、ESTOI 和 SDR 方面分别提供了 0.03、0.52% 和 0.13dB 的改进。

表 2. 不同模型在 PESQ、ESTOI 和 SDR 方面对可见和不可见说话者情况的客观结果比较。BOLD 表示每种情况下的最佳分数。

4.4.2.与基线比较

不同模型的结果如表 2 所示。请注意,CME-Net 和 CTS-Net 是消融研究中的最佳配置。人们可以有以下观察。首先,CME-Net 在不同情况下显着优于 CRN。例如,对于可见说话者,CME-Net 在babble和工厂 1 噪声方面比 CRN 提供平均 0.12 和 0.10 PESQ 改进,而在 ESTOI 中分别提供 2.05% 和 1.80% 的改进。这表明 MG-TCM 在序列建模能力方面比朴素 LSTM 具有更优越的性能。其次,与 CME-Net 相比,当利用第二阶段来细化频谱时,实现了较大的度量改进。例如,从 CME-Net 到 CTS-Net,PESQ 和 ESTOI 分别平均提高 0.25% 和 6.94%。这揭示了第二阶段在提高语音质量和可懂度方面的必要性和意义。第三,所提出的两阶段模型始终超过所有基线。例如,与GCRN相比,在PESQ、ESTOI和SDR方面分别获得了平均0.18、4.29%和1.38dB的度量改进。

表 3. 不同模型之间可训练参数的数量。单位为百万。粗体表示最低的可训练参数。

表 3 总结了不同模型中可训练参数的数量。可以发现,CME-Net 是不同模型中参数数量最少的。由于CTS-Net包括两个级联子网络,参数数量相对较多。尽管如此,它仍然低于另外三个基线。

5、结论

在这项工作中,我们提出了一种用于复值域中单声道降噪的两阶段算法。在第一阶段,估计频谱的幅度,将其与带噪信号相位耦合以获得粗略的复频谱。在第二阶段,捕获频谱细节,同时进一步细化幅度和相位信息。此外,还提出了一种改进的TCM,它可以在序列学习中获得比以前的同类方法更好的性能,同时大幅减少参数冗余。实验结果表明,所提出的算法始终优于以前的强大方法,同时仍然具有较小的参数容量。

参考文献:

[1] P. C. Loizou, Speech enhancement: theory and practice, CRC press, 2013.

[2] D. L. Wang and J. Chen, “Supervised speech separation based on deep learning: An overview,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 26, no. 10, pp. 1702–1726, 2018.

[3] M. Kolbæk, Z.-H Tan, Søren H. Jensen, and J. Jensen, “On loss functions for supervised monaural time-domain speech enhancement,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol.28, pp. 825–838, 2020.

[4] Y. Xu, J. Du, L-R. Dai, and C-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 23, no. 1, pp.7–19, 2014.

[5] C. Hummersone, T. Stokes, and T. Brookes, “On the ideal ratio mask as the goal of computational auditory scene analysis,” in Blind source separation, pp. 349–368. Springer, 2014.

[6] K. Paliwal and B. Wojcicki, K. and Shannon, “The importance ´ of phase in speech enhancement,” Speech Commun., vol. 53, no. 4, pp. 465–494, 2011.

[7] K. Tan and D. L. Wang, “Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 28, pp. 380–390, 2020.

[8] A. Pandey and D. L. Wang, “Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain,” in Proc. ICASSP. IEEE, 2020, pp.6629–6633.

[9] D. Yin, C. Luo, Z. Xiong, and W. Zeng, “PHASEN: A phaseand-harmonics-aware speech enhancement network.,” in Proc.of AAAI, 2020, pp. 9458–9465.

[10] X. Li, J. Wu, Z. Lin, H. Liu, and H. Zha, “Recurrent squeezeand-excitation context aggregation net for single image deraining,” in Proc. of ECCV, 2018, pp. 254–269.

[11] A. Li, M. Yuan, C. Zheng, and X. Li, “Speech enhancement using progressive learning-based convolutional recurrent neural network,” Appl. Acoust., vol. 166, pp. 107347, 2020.

[12] A. Li, C. Zheng, C. Fan, R. Peng, and X. Li, “A recursive network with dynamic attention for monaural speech enhancement,” arXiv preprint arXiv:2003.12973, 2020.

[13] X. Hao, X. Su, S. Wen, Z. Wang, Y. Pan, F. Bao, and W. Chen, “Masking and inpainting: A two-stage speech enhancement approach for low snr and non-stationary noise,” in Proc.ICASSP. IEEE, 2020, pp. 6959–6963.

[14] C. Fan, J. Tao, B. Liu, J. Yi, Z. Wen, and X. Liu, “End-toend post-filter for speech separation with deep attention fusion features,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol.28, pp. 1303–1314, 2020.

[15] Z. Q. Wang, P. Wang, and D. L. Wang, “Complex spectral mapping for single-and multi-channel speech enhancement and robust asr,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol.28, pp. 1778–1787, 2020.

[16] D. Griffin and J. Lim, “Signal estimation from modified shorttime fourier transform,” IEEE Trans. Acoustics, Speech, Signal Process., vol. 32, no. 2, pp. 236–243, 1984.

[17] Y. Luo and N. Mesgarani, “Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 27, no. 8, pp. 1256–1266, 2019.

[18] R. Hamaguchi, A. Fujita, K. Nemoto, T. Imaizumi, and S. Hikosaka, “Effective use of dilated convolutions for segmenting small object instances in remote sensing imagery,” in Proc. of WACV. IEEE, 2018, pp. 1442–1450.

[19] Z. Wang and S. Ji, “Smoothed dilated convolutions for improved dense prediction,” in Proc. of SIGKDD, 2018, pp.2486–2495.

[20] D. Ulyanov, A. Vedaldi, and V. Lempitsky, “Instance normalization: The missing ingredient for fast stylization,” arXiv preprint arXiv:1607.08022, 2016.

[21] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing human-level performance on imagenet classification,” in Proc. of ICCV, 2015, pp. 1026–1034.

[22] X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” in Proc. 14th Int. Conf. Artif. Intell. Statist., 2011, pp. 315–323.

[23] D. Paul and J. Baker, “The design for the wall street journalbased csr corpus,” in Workshop on Speech and Natural Language, 1992, p. 357–362.

[24] A. Varga and H. Steeneken, “Assessment for automatic speech recognition: Ii. noisex-92: A database and an experiment to study the effect of additive noise on speech recognition systems,” Speech Commun., vol. 12, no. 3, pp. 247–251, 1993.

[25] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.

[26] K. Tan and D. L. Wang, “A convolutional recurrent neural network for real-time speech enhancement.,” in Proc. of Interspeech, 2018, pp. 3229–3233.

[27] A. Pandey and D. L. Wang, “TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain,” in Proc. of ICASSP. IEEE, 2019, pp. 6875–6879.

[28] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, “Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs,” in Proc.of ICASSP. IEEE, 2001, vol. 2, pp. 749–752.

[29] J. Jensen and C. Taal, “An algorithm for predicting the intelligibility of speech masked by modulated noise maskers,” IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 24, no. 11, pp. 2009–2022, 2016.

[30] E. Vincent, H. Sawada, P. Bofill, S. Makino, and J. Rosca, “First stereo audio source separation evaluation campaign: data, algorithms and results,” in Proc. Int. Conf. Ind. Compon.Anal. Blind Source Separation. Springer, 2007, pp. 552–559.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值