论文研究15：TCNN for speech enhancement

最新推荐文章于 2024-07-26 22:49:03 发布

浪浪亮

最新推荐文章于 2024-07-26 22:49:03 发布

阅读量895

点赞数 1

文章标签：机器学习深度学习神经网络

原文链接：https://ieeexplore.ieee.org/document/8683634/

版权

论文研究15：TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECH ENHANCEMENT IN THE TIME DOMAIN

abstract

这项工作提出了一种用于时域实时语音增强的全卷积神经网络（CNN）。提出的CNN是基于编码器-解码器的体系结构，在编码器和解码器之间插入了一个附加的时间卷积模块（TCM）。我们将此架构称为时间卷积神经网络（TCNN）。 TCNN中的编码器创建一个嘈杂的输入帧的低维表示。 TCM使用因果和膨胀的卷积层来利用当前帧和先前帧的编码器输出。解码器使用TCM输出来重建增强帧。所提出的模型以与说话者和噪声无关的方式训练。实验结果表明，与最新的实时卷积递归模型相比，所提出的模型始终提供更好的增强效果。此外，由于该模型是完全卷积的，因此其可训练参数比早期模型少得多。

1. INTRODUCTION

语音增强是从语音信号中消除或衰减附加噪声的任务。它在许多应用中用作预处理器，例如强大的语音识别，电话会议和助听器。传统的语音增强方法包括频谱减法[1]，维纳滤波[2]，基于统计模型的方法[3]和非负矩阵分解[4]。

在过去的几年中，基于深度学习的监督方法已经成为语音增强的主流[5]。通常，在监督方法中，将给定的语音信号转换为时频（T-F）表示，并且将从T-F表示构造的目标信号用作训练目标。一些最流行的训练目标是理想比率掩码（IRM）[6]，相敏掩码（PSM）[7]和短时傅立叶变换（STFT）幅度。

即使使用T-F表示法是最流行的方法，它也有一些缺点。首先，这些方法通常忽略干净阶段信息，而将噪声阶段用于时域信号重建。过去的一些研究表明，相位对于提高语音质量是必不可少的，尤其是在低信噪比（SNR）条件下[8]。其次，即使使用理想目标，某些训练目标（例如IRM）也无法实现完美的信号重建。最后，对于快速语音增强，T-F表示的计算是额外的开销。

上述因素以及深度神经网络（DNN）的强大表示能力已导致研究人员探索DNN进行时域语音增强。在[9]中，作者证明了全卷积神经网络对于时域语音增强的有效性。最近在[10]中，作者训练了在时域中使用的具有频域损失的模型，以提高增强型语音的感知质量。即使[10]中的工作可以获得最先进的性能，它没有解决实时增强的问题。所提出的模型在每个时间步使用128 ms的帧，从而使该模型不适合实际应用。

出于成功实现序列建模的TCNN的动机[11]，以及时域语音增强的基于编码器-解码器的体系结构的有效性[10，12]，我们建议将两者结合起来以获得实时增强系统。所提出的模型具有由因果卷积层组成的基于编码器-解码器的体系结构。在编码器和解码器之间插入了一个TCM，以了解过去的长期依赖关系。在我们的工作中使用的TCM与[13]中使用的TCM类似，其中作者使用TCM在时域中以最先进的性能执行实时说话者分离。

本文的内容如下：我们首先在下一部分中描述TCNN。第3节介绍了建议的框架。实验细节，结果和比较在第4节中给出。第5节总结了论文。

2. TEMPORAL CONVOLUTIONAL NEURAL NETWORKS

TCNN是提出用于因果约束的序列建模任务的通用卷积网络[11]。给定输入序列x0，…，xt和相应的输出序列y₀，…，y_t，序列建模网络将通过在网络之间训练一些损失函数来学习估计输出序列yˆ₀，…，yˆ_t 估计序列和输出序列。网络上的因果约束意味着预测yˆt仅取决于x₀，…，x_t，而不取决于未来的输入x_t+1 …，x_T。在时域中语音增强的情况下，输入序列是噪声帧的序列，而输出序列是干净帧的序列。
在这里插入图片描述
为了施加因果约束，TCNN由因果层和膨胀的卷积层组成。因果卷积可确保从未来到过去不会泄漏任何信息。膨胀的卷积有助于增加感受野。接受领域越大，网络对过去的了解就越多。图1展示了一个大小为2的滤波器的因果卷积的例子。

此外，TCNN由残差块组成，因此可以使用残差学习对深度网络进行适当的训练[14]。图2显示了这项工作中使用的剩余块。在[13]中使用了类似的残差块。残差块由3个卷积组成：输入1x1卷积，深度卷积和输出1x1卷积。输入卷积用于使输入通道数量加倍。输出卷积用于返回到原始通道数，使输入和输出的增加兼容。深度卷积用于进一步减少参数数量。在深度卷积中，通道数保持相同，每个输入通道仅使用一个滤波器进行输出计算[15]。在正常卷积中，每个输出通道使用的滤波器数量与输入通道数量相同。输入和中间卷积后跟参数ReLU非线性[16]和批处理归一化[17]。
在这里插入图片描述

3. PROPOSED FRAMEWORK

提出的TCNN具有三个组成部分：编码器，解码器和TCM。编码器和解码器由二维因果卷积层组成，而TCM由一维因果卷积和膨胀卷积层组成。所提出的框架的框图如图3所示。
在这里插入图片描述
编码器将带噪帧序列作为输入，编码器的输入大小为T×320×1，其中T是帧数，320是帧大小，1是输入通道数。编码器的第一层将通道数从1增加到64。第一层之后的输出尺寸为T×320×16。接下来的7层使用卷积依次减小尺寸，沿卷积尺寸沿帧尺寸减小尺寸，编码器的最终输出为T×4×64尺寸，网络中的任何层都不会沿时间维度修改大小，因此输出的帧数与输入的帧数相同。以便输出具有与输入相同数量的帧。编码器中的每一层之后是批处理归一化和参数ReLU非线性。

编码器的输出被整形为大小为T×256的一维信号。TCM对整形后的输出进行操作，并产生相同大小的输出。 TCM具有三个堆叠在一起的膨胀块。通过堆叠六个具有成倍增加的扩张速率的残余块来形成扩张块。在膨胀块中，剩余块中的连续膨胀率是1、2、4、8、16和32。

解码器是编码器的镜像，由一系列二维因果转置的卷积（解卷积）层组成。每层之后的解码器输出与编码器中相应对称层的输出串联在一起。在训练时，我们向来自编码器的传入跳过连接添加了0.3的下降。解码器中的每一层之后是批处理归一化和参数ReLU非线性。

表1中给出了详细的网络参数。对于编码器和解码器，超参数的格式为filterHeight×filterWidth（沿时间跨度，沿帧跨度）。对于TCM，用小括号括起来的条目表示一个残差块，而超参数的格式为filterSize，dilationRate，outputChannels。
在这里插入图片描述

4. EXPERIMENTS

4.1. Datasets

我们在WSJ0 SI-84数据集上以说话者和噪声无关的方式评估了提出的框架[18]。 WSJ0 SI-84数据集由83138位说话者（42位男性和41位女性）的7138言语组成。我们为测试装置选择六个扬声器。其余的77位演讲者用于创建培训混合物。为了训练噪声，我们使用了声音效果库（可从www.sound-ideas.com获得）中的10000种非语音声音。训练发声以-5 dB，-4 dB，-3 dB，-2 dB，-1 dB和0 dB的SNR产生。以下列方式创建嘈杂的话语。首先，随机选择来自训练说话者的话语，SNR和噪声类型。然后，将所选话语与所选噪声类型的随机段以所选SNR混合。总共产生了320000个训练语音。训练噪音的持续时间约为125小时，而发声的持续时间约为500小时。

对于测试集，我们使用来自Auditec CD（可从http://www.auditec.com获得）的两种具有挑战性的噪音（bble啪声和自助餐厅声）。创建了两个测试集。第一个测试集使用来自训练说话者的6位说话者（3位男性和3位女性）的发音。第二个测试集是根据训练集中未包含的6位（3位男性和3位女性）说话者的发音创建的。这两个测试集评估受过训练和未经训练的说话者的表现。请注意，所有测试话语都将从训练集中排除。

4.2. Baselines

对于基线，我们训练两个模型。首先，我们训练一个基于LSTM的实时因果系统。我们在结果中将此模型称为LSTM。从输入层到输出层，LSTM模型具有161、1024、1024、1024、1024和161个单位。其次，我们训练了最近在[19]中提出的另一个实时因果系统。该系统是循环卷积体系结构，它使用带有LSTM的基于编码器-解码器的卷积网络进行递归。我们在结果中将此模型称为CRN。请注意，两个基准模型都在频域中运行。

4.3. Experimental settings

所有话语都重新采样到16 kHz。使用大小为20 ms且重叠时间为10 ms的矩形窗口提取帧。所有模型均使用均方误差损失和批处理量为8进行训练。小说话被零填充以匹配批次中最大说话的大小。 Adam优化器[20]用于基于随机梯度下降（SGD）的优化。学习率设置为等于0.0002的较小常数。

4.4. Experimental results

我们根据短期目标清晰度（STOI）[21]和语音质量的感知评估（PESQ）[22]分数对模型进行比较。首先，我们将TCNN与训练有素的演讲者的基线进行比较。结果列于表2。与LSTM相比，STOI的两个SNR均平均提高6.1％。 PESQ在-5 dB时提高了0.14，在-2 dB时提高了0.17。同样，与CRN相比，STOI的SNR改善了4％，PESQ的-5 dB改善了0.04，-2 dB改善了0.09。
在这里插入图片描述
接下来，我们比较未经训练的发言人上的模型。结果列于表3。在性能改进中观察到了类似的趋势，除了在这种情况下，TCNN在PESQ评分上也明显优于CRN。这表明CRN模型对于训练集中的说话者过拟合。

我们还比较了模型中可训练参数的数量。表4中给出了这些数字。与基线模型相比，所提出的模型具有更少的参数，使其适合在实际应用中高效实现。
在这里插入图片描述

最后，值得一提的是，提出的框架可以在输入端接受可变的帧大小。唯一所需的更改是根据所需的帧大小在编码器和解码器中添加或删除图层。此外，该模型可以轻松地应用于其他基于回归的监督语音处理任务，例如说话者分离，混响和回声消除。

5 .CONCLUSIONS

在这项研究中，我们提出了一种新颖的全卷积神经网络，用于时域实时语音增强。所提出的TCNN在频域上明显优于现有的实时系统。另外，提出的框架具有更少的可训练参数。此外，通过在网络的编码器和解码器中进行简单的修改，该系统易于适应于不同的帧大小。未来的研究包括探索TCNN模型以处理其他语音处理任务，例如去混响，回声消除和说话者分离。

浪浪亮

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
论文研究15：TCNN for speech enhancement

论文研究13：TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECH ENHANCEMENT IN THE TIME DOMAINabstract这项工作提出了一种用于时域实时语音增强的全卷积神经网络（CNN）。提出的CNN是基于编码器-解码器的体系结构，在编码器和解码器之间插入了一个附加的时间卷积模块（TCM）。我们将此架构称为时间卷积神经网络（TCNN）。 TCNN中的编码器创建一个嘈杂的输入帧的低维表示。 TCM使用因果
复制链接

扫一扫