论文解析:Real Time Speech Enhancement in the Waveform Domain

Facebook AI研究院提出了一种在CPU上实时运行的语音增强模型-Demucs,采用encoder-decoder架构,结合时域和频域损失函数,能有效去除各种噪声并提升语音质量。模型适用于实时应用,具有与先进模型相当的性能,并能提升ASR系统的准确性。
摘要由CSDN通过智能技术生成

paper:在时域波形上的实时语音增强技术
code :https://github.com/facebookresearch/denoiser
这篇文章出自Facebook AI研究院,经本人真实的新闻数据测验,具有较好的降噪效果,下面来详细介绍一下这篇论文。

一、论文

1. 摘要

本文提出了一个能够在CPU的笔记本电脑上实时运行的语音增强模型。该模型是一个带有skip-connection结构的encoder-decoder架构。利用多个损失函数,同时优化时域和频域。实验结果表明,该方法能够去除各种背景噪声,包括平稳噪声和非平稳噪声,以及室内的混响。此外,我们还发明了一些在时域波形上进行数据增强的技术,该些技术能够提高模型的最终性能。我们在几个标准上进行评估(如客观指标和人为打分),所提出的模型能够媲美因果方法和非因果方法的最好结果;
关键词:语音增强,语音降噪,神经网络,原始波形

注:因果方法:所用的数据不包含未来时刻的数据,只涉及到当下和过去的数据,如LSTM;非因果方法:所用的数据包含未来时刻的数据,如BiLSTM。

2. 引言

语音增强是一项最大化的提高语音信号的人耳感知质量的任务。大多数被记录的会议语音都有一些影响清晰度的噪音,如街道噪音、狗叫声、键盘声等等。因此,对于视听会议和人工耳蜗来说,语音增强是一项非常重要的任务,并且它也可以帮助ASR系统。对于许多这样的应用程序,语音增强系统的一个关键特性必须是实时运行的,在商用通信设备上,还必须尽可能少的减少延迟。
多年来,在语音增强领域也出现了很多可行的方案,如估计噪声模型并利用它恢复不带噪声的语音。尽管这些方法可以很好的跨领域推广,但是它们仍然很难处理一些常见的噪声,如非平稳噪声,或一群人同时说话的喋喋不休的声音。这种噪音类型的存在大大降低了人类语音的听力可理解性。近年来,基于深度神经网络(DNN)的模型在处理非平稳噪声和喋喋不休的噪声时表现明显优于传统方法,同时在客观和主观评价中产生更高质量的语音。此外,基于深度学习的方法也在单通道语音分离的结果上优于传统方法。
受到这些启发,本文提出了一个实时语音增强模型-Demucs。它由卷积网络和LSTM构成,帧长40ms,帧移16ms,并且在笔记本CPU上实时运行。以提升音频质量为目的,我们的模型从时域波形,通过分层网络(包含skip-connection的U-Net结构),最后再到时域波形。我们对模型进行了优化,直接输出干净的语音,同时最小化时域的L1 loss和频域的spec loss。此外,我们还提出了一个简单有效的数据增强技术:频带掩蔽和信号混响。尽管有着实时性的约束,但是我们的模型依旧能够和当前最先进的模型相当。
尽管有多种指标可以衡量语音增强系统,但是这些指标和人类的判断毫不相关。因此我们提交了这两样的结果。此外,我们在损失和增强的功能上进行了消融研究,以更好的强调各自的性能。最后,我们分析了增强后的语音在ASR上的错字率(WER)。
结果表明,当直接在原始波形上工作时,所提出的方法在所有指标上都可与当前最先进的模型相媲美。此外,增强的样本对噪声条件下ASR模型的改进也有帮助。

3. 模型

3.1 符号和问题设置

我们专注于在实时应用上可以运行的单通道语音增强。具体的说就是,给定一个音频信号 x ∈ R T x \in R^T xRT,x由一个干净的语音信号 y ∈ R T y \in R^T yRT和一个额外的背景信号 n ∈ R T n \in R^T nRT组成,即 x = y + n x=y+n x=y+n,对于样本来说,长度T并不是一个固定的数值,因为输入的句子可以有不同的时长。我们的目标就是找到一个增强的函数使得 f ( x ) = y f(x)=y f(x)=y
在本文里,我们认为f就是Demucs模型,该模型最初被用在音乐源分离的任务上,现在调整之后用来挑战因果语音增强的任务,模型的结构如图1a所示。
在这里插入图片描述

2.2 demucs架构

demucs包含一个多层的带有u-net跳步连接的卷积编码器和解码器,以及一个LSTM网络,位于编码器和解码器之间。特征参数:编码器和解码器都有L层,初始化hidden_size为H,卷积核大小K,步长S,以及重采样因子U。编码和解码层被通过1到L编号(解码层的编号相反,因此可以知道:相同缩放范围的层上有着相同的索引)。因此我们集中注意力于单通道语音增强,模型的输入和输出仅有一个通道
形式上可以看到,编码网络Encoder将原始波形作为输入,输出一个潜在的表示 E n c o d e r ( x ) = z Encoder(x)=z Encoder(x)=z,编码器的每一层包含:一个卷积核大小为K,步长是S,输出通道是 2 i − 1 H 2^{i-1}H 2i1H个输出通道;一个Relu层,一个输出通道是 2 i H 2^{i}H 2iH的1x1卷积,和一个GLU激活层(将输出通道重新变为 2 i − 1 H 2^{i-1}H

鲁棒的GSC波束形成方法是一种用于语音增强的方法,它使用线性麦克风阵列。GSC(Generalized Sidelobe Canceller)是一种常见的用于语音增强的方法,它能够优化麦克风阵列的波束形成性能。 在这种方法中,首先使用线性麦克风阵列采集到的原始语音信号。然后,通过对麦克风信号进行预处理和声学模型建立,可以建立起麦克风阵列的声学特性。 在预处理阶段,可以使用一些降噪算法来去除噪声对语音信号的影响。例如,常用的算法包括谱减法、短时时域幅度估计(STSA)等。这些算法可以通过对麦克风阵列中的信号进行频谱分析和幅度估计来实现噪声的去除。 在声学模型建立阶段,通常会使用一些机器学习算法,例如统计模型(如高斯混合模型)或神经网络模型,来建立麦克风阵列的声学特性模型。这些模型可以通过对语音信号进行建模和预测来优化麦克风阵列的波束形成性能。 最后,在语音增强阶段,通过对预处理后的信号应用波束形成算法,可以将麦克风阵列的指向性增强到语音源的方向,从而增强语音信号的清晰度和质量。这样,用户在接收到语音信号时,可以更清晰地听到对方的声音,减小噪声对语音信号的干扰。 总之,通过采用线性麦克风阵列和GSC波束形成方法,我们可以实现对语音信号的鲁棒增强,提高语音清晰度和质量。同时,该方法还可以有效抑制噪声对语音信号的干扰,提高语音通信的可靠性和质量。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值