论文网址:https://arxiv.org/pdf/2209.03952
TF-GRIDNET: MAKING TIME-FREQUENCY DOMAIN MODELS GREAT AGAIN FOR MONAURAL SPEAKER SEPARATION
关键词: 时频域、单通道、说话人分离
anechoic conditions: 消声环境,可理解为未经传播衰减之前的语音信号。
intraframe spectral module: 频域时序信息建模
sub-band temporal module: 时域时序信息建模
full-band self-attention module:
dual-path:
输入特征: 噪声信号 STFT之后的 实部和虚部 堆叠。
神经网络输出: 预测目标信号的实部和虚部。
loss: SI-SDR
效果:WSJ0-2mix 数据集上 23.4 dB SI-SDRi提升
non-causal 非因果系统: 时域信号归一化到方差为1。
1.创新点
- 提出TF-GridNet网络,以二维的形式作用在TF域上,类似网格。除了改进TFPSNet之外,还为dual-path模型加入了 full-band self-attention来利用跨帧全局信息。
- 在si-snr损失函数基础上,用了新的时域损失函数,使分离后的语音的总和接近于混合信号。
2.TF-GridNet网络结构
2XTXF-> Conv2d(33 kernel)+gLN-> DXTXF->BX TF-GridNet->Deconv2d(33 kernel, 2C channel output)->Linear activation->iSTFT.
3.损失函数
utterance-level PIT 置换不变训练
SE scaling estimate 尺度缩放估计,在SI-SDR计算误差信号的时候,对估计的分离信号做了尺度缩放。
MC mixture-constraint loss
该loss是受到a trigonometric perspective [7]启发,约束分离后的估计信号 求和等于mixture 可以获得更好的相位估计。
加入了 分离后的信号和 和带噪信号的误差。
4.参数设置
数据集: WSJ0-2mix,
20,000 (∼30h) train set,
5,000 (∼10h) dev set,
3,000 (∼5h) test set
2个说话人混合时候的相对能量比 [-5,5]dB.
采样率: 8kHz
STFT设置: 32ms帧长,8ms帧移。square-root Hann Window (开方汉宁窗)。32*8 256点FFT,129 维度频点。
B=6, TF-Gridnet模块重复次数
E=4,Self-Attention中Q和K Con2d的输出通道数
4s数据用于模型训练。
优化器使用Adam,梯度裁剪使用norm 1。
学习率设置为0.001,valid loss 连续3个epoch没有下降时学习率减半。
混合信号的SI-SDR为0dB,SDR为0.2dB。
5.效果评估
DPRNN, TFPSNet, TF-GridNet的比较。
Row3 TF-GridNet with masking,使用learned embedded space.
Row4 使用 complex ratio masking.
Table3 表明使用 Complex spectral mapping效果要比masking效果好。
Row 1-4 表明 和I=1,D=128相比,I=8,D=16并没有降低性能。但是I=8,D=16的设置内存较低。