语音分离：TF-GridNet

最新推荐文章于 2025-01-23 16:47:03 发布

qq_14962179

最新推荐文章于 2025-01-23 16:47:03 发布

阅读量574

点赞数

分类专栏：语音分离文章标签：语音分离人工智能

原文链接：https://arxiv.org/pdf/2209.03952

版权

语音分离专栏收录该内容

1 篇文章

订阅专栏

论文网址：https://arxiv.org/pdf/2209.03952

TF-GRIDNET: MAKING TIME-FREQUENCY DOMAIN MODELS GREAT AGAIN FOR MONAURAL SPEAKER SEPARATION

1.创新点
2.TF-GridNet网络结构
3.损失函数
4.参数设置
5.效果评估

关键词：时频域、单通道、说话人分离
anechoic conditions：消声环境，可理解为未经传播衰减之前的语音信号。
intraframe spectral module：频域时序信息建模
sub-band temporal module：时域时序信息建模
full-band self-attention module：
dual-path：
输入特征：噪声信号 STFT之后的实部和虚部堆叠。
神经网络输出：预测目标信号的实部和虚部。
loss： SI-SDR
效果：WSJ0-2mix 数据集上 23.4 dB SI-SDRi提升
non-causal 非因果系统：时域信号归一化到方差为1。

1.创新点

提出TF-GridNet网络，以二维的形式作用在TF域上，类似网格。除了改进TFPSNet之外，还为dual-path模型加入了 full-band self-attention来利用跨帧全局信息。
在si-snr损失函数基础上，用了新的时域损失函数，使分离后的语音的总和接近于混合信号。

2.TF-GridNet网络结构

在这里插入图片描述
2XTXF-> Conv2d(33 kernel）+gLN-> DXTXF->BX TF-GridNet->Deconv2d(33 kernel, 2C channel output)->Linear activation->iSTFT.

3.损失函数

utterance-level PIT 置换不变训练
在这里插入图片描述
SE scaling estimate 尺度缩放估计，在SI-SDR计算误差信号的时候，对估计的分离信号做了尺度缩放。
MC mixture-constraint loss

该loss是受到a trigonometric perspective [7]启发，约束分离后的估计信号求和等于mixture 可以获得更好的相位估计。
加入了分离后的信号和和带噪信号的误差。

4.参数设置

数据集: WSJ0-2mix,
20,000 (∼30h) train set,
5,000 (∼10h) dev set,
3,000 (∼5h) test set
2个说话人混合时候的相对能量比 [-5,5]dB.
采样率： 8kHz
STFT设置： 32ms帧长，8ms帧移。square-root Hann Window （开方汉宁窗）。32*8 256点FFT，129 维度频点。
在这里插入图片描述
B=6, TF-Gridnet模块重复次数
E=4，Self-Attention中Q和K Con2d的输出通道数
4s数据用于模型训练。
优化器使用Adam，梯度裁剪使用norm 1。
学习率设置为0.001，valid loss 连续3个epoch没有下降时学习率减半。
混合信号的SI-SDR为0dB，SDR为0.2dB。

5.效果评估

在这里插入图片描述
DPRNN, TFPSNet, TF-GridNet的比较。
Row3 TF-GridNet with masking，使用learned embedded space.
Row4 使用 complex ratio masking.
Table3 表明使用 Complex spectral mapping效果要比masking效果好。

Row 1-4 表明和I=1，D=128相比，I=8，D=16并没有降低性能。但是I=8，D=16的设置内存较低。