文章目录
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/070e0a7bcb3555c128e322436cd46496.png)
ICASSP2021
0. 摘要
为了应对各种复杂的噪声场景,本文引入了一种新的增强架构,它将深度自动编码器与神经噪声嵌入相结合。 在这项研究中,引入了一种新的归一化方法,称为条件层归一化 (CLN),以改进基于深度学习的语音增强方法对unseen environments的泛化。噪声嵌入通过 CLN 层来规范语音增强任务的网络。所提出的网络可以根据从带噪语音输入中提取的不同噪声信息进行自适应调整。 整个网络以端到端的方式进行训练,实验结果表明,该网络模型能够捕获噪声信息,提升模型鲁棒性。
1. 简介
大多基于深度学习的语音增强方法直接从带噪信号中预测纯净语音信号,没有考虑噪声信息。一般来说,训练集中可以包含大量的不同噪声环境,以提升模型的泛化能力和降噪性能。如果可以估计噪声信息,并将其嵌入到网络中作为附加提示,则可以显著缓解噪声噪声类型不匹配的问题。
本文提出了一种新的条件归一化方法(CLN),用于时域语音增强。带噪信号输入到网络中,学习噪声嵌入(embedding)。在增强网络中,带噪信号通过以噪声嵌入为条件的CLN层,从而得到增强后的信号。所提出的方法中,所有的子网络都使用所提出的损失函数进行端到端训练。
2. 模型方法
本文探索了一种具有 CLN 层 (AECLN) 的新型自动编码器框架,以提高单声道语音增强的泛化能力,整体架构如图1所示。模型包含三个部分:噪声估计网络,残差卷积网络和增强网络。通过噪声估计网络得到噪声嵌入向量
n
e
m
b
n_{emb}
nemb,然后该向量通过残差卷积网络,以压缩噪声环境特征并提升嵌入特征的表达能力。
2.1 Conditional Layer Normalization
层归一化(LN)是一种对中间层分布进行归一化的技术。 它可以实现更平滑的梯度、更快的训练,并且可以被视为一种正则化机制。channel-wise LN的公式定义如公式(1)所示:
其中
x
∈
R
C
×
T
x \in R^{C \times T}
x∈RC×T表示特征,
γ
和
β
\gamma和\beta
γ和β表示科学系参数,
μ
c
和
σ
c
\mu_c和\sigma_c
μc和σc表示x在c个通道上的均值和标准差,所有特征在通道维度上进行归一化。
conditional batch normalization (CBN) 和adaptive instance normalization (AdaIN) 是从输入条件转换现有归一化方法的参数 γ 和 β 的函数。 本文提出的CLN与其类似,仿射变换的参数 γ 和 β 由输入条件 ic 生成。
输入条件ic由噪声估计网络生成,因此,环境信息将通过重新缩放recaling和重新定位recentering行为影响不同层中的特征。γ(ic)和β(ic)表示128维向量的线性映射,从残差 CNN 输出到每个 CLN 层中,维度与对应层的通道数相同。最后,CLN可以根据从带噪语音输入中提取的不同噪声环境信息,自适应调整语音增强网络。
2.2 网络架构
增强网络包含输入层、encoder、decoder和输出层,除了输入和输出层,所有的卷积层后面都会使用CLN层和PReLU非线性激活层。
噪声估计网络时一个基于卷积层的深度自编码器,用于重构噪声信号。该网络encoder的输出用于噪声嵌入
n
e
m
b
n_{emb}
nemb。噪声信号可以通过带噪信号减去纯净信号的方式获得,无需其它标签,这种方法能够适应不同的信噪比和非稳态噪声场景。网络中加入了skip connection,每个卷积后加入BN层和PReLU激活函数层。最后的输出卷积层使用Tanh激活函数,网络架构细节如图2所示:
2.3 损失函数
STFT magnitudes(SM)损失函数定义如下:
其中
s
r
,
s
i
s_r, s_i
sr,si分别表示实部和虚部
本文提出的AECLN网络使用时域上的MAE损失或者SM损失,损失函数包含两个部分,分别是重构损失
L
r
e
c
o
n
L_{recon}
Lrecon和噪声估计损失
L
e
s
t
L_{est}
Lest。
3. 实验
3.1 实验步骤
纯净语音:TIMIT数据集,训练、验证和测试集分别包含1000, 200和100条话语。
噪声信号:NOISEX-92数据集,从中选择10种噪音。
训练集数据信噪比设置为-5dB到10dB,间隔1dB。每段语音与4中噪声噪声混合,生成3种不同的信噪比。
另外选择了8种噪声用做unseen noise types。
采样率16kHz, 使用128ms大小的滑动矩形窗口提取波形块,overlap为64ms。输出信号计算SM损失时,使用512大小的hamming 窗,窗移位256。
Adam优化器,初始学习率为0.001,mini-batch为256,early-stopping设置为5。
评价指标为PESQ和STOI。
评测的模型:
Deep Feature Loss(DFL)[31]
AECNN-MAE:使用MAE损失函数,不使用CLN层。
AECNN-SM
AECNN-LN-SM
AECNN-BN-SM
AECNN-NE-SM:来自噪声估计网络的噪声嵌入向量与增强网络的编码器层的输入连接,而不是使用 CLN。
3.2 噪声嵌入向量的可视化
噪声嵌入
n
e
m
b
n_{emb}
nemb在时间通道上进行平均,从而获得更紧凑的 64 维向量。 最终的话语级噪声环境特征
n
u
−
e
m
b
n_{u-emb}
nu−emb 是通过对同一话语中的所有帧进行元素平均来生成的。 我们通过噪声估计网络在 -5 dB 的测试集中输入可见和不可见噪声类型的话语,并在图 3 中使用 t-SNE [32] 在 2D 空间中绘制它们的特征。 我们可以观察到,即使在噪声不匹配的情况下,受不同噪声类型干扰的话语也会被分离。
[32] V. D. M. Laurens and G. Hinton, “Visualizing data using t-sne,” Journal of Machine Learning Research, vol. 9, no. 2605, pp. 2579–2605, 2008.