语音分离:TF-GridNet

论文网址:https://arxiv.org/pdf/2209.03952

TF-GRIDNET: MAKING TIME-FREQUENCY DOMAIN MODELS GREAT AGAIN FOR MONAURAL SPEAKER SEPARATION


关键词: 时频域、单通道、说话人分离
anechoic conditions: 消声环境,可理解为未经传播衰减之前的语音信号。
intraframe spectral module: 频域时序信息建模
sub-band temporal module: 时域时序信息建模
full-band self-attention module
dual-path
输入特征: 噪声信号 STFT之后的 实部和虚部 堆叠。
神经网络输出: 预测目标信号的实部和虚部。
loss: SI-SDR
效果:WSJ0-2mix 数据集上 23.4 dB SI-SDRi提升
non-causal 非因果系统: 时域信号归一化到方差为1。

1.创新点

  • 提出TF-GridNet网络,以二维的形式作用在TF域上,类似网格。除了改进TFPSNet之外,还为dual-path模型加入了 full-band self-attention来利用跨帧全局信息。
  • 在si-snr损失函数基础上,用了新的时域损失函数,使分离后的语音的总和接近于混合信号。

2.TF-GridNet网络结构

在这里插入图片描述
2XTXF-> Conv2d(33 kernel)+gLN-> DXTXF->BX TF-GridNet->Deconv2d(33 kernel, 2C channel output)->Linear activation->iSTFT.
在这里插入图片描述

3.损失函数

utterance-level PIT 置换不变训练
在这里插入图片描述
SE scaling estimate 尺度缩放估计,在SI-SDR计算误差信号的时候,对估计的分离信号做了尺度缩放。
MC mixture-constraint loss
在这里插入图片描述
该loss是受到a trigonometric perspective [7]启发,约束分离后的估计信号 求和等于mixture 可以获得更好的相位估计。
加入了 分离后的信号和 和带噪信号的误差。

4.参数设置

数据集: WSJ0-2mix,
20,000 (∼30h) train set,
5,000 (∼10h) dev set,
3,000 (∼5h) test set
2个说话人混合时候的相对能量比 [-5,5]dB.
采样率: 8kHz
STFT设置: 32ms帧长,8ms帧移。square-root Hann Window (开方汉宁窗)。32*8 256点FFT,129 维度频点。
在这里插入图片描述
B=6, TF-Gridnet模块重复次数
E=4,Self-Attention中Q和K Con2d的输出通道数
4s数据用于模型训练。
优化器使用Adam,梯度裁剪使用norm 1。
学习率设置为0.001,valid loss 连续3个epoch没有下降时学习率减半。
混合信号的SI-SDR为0dB,SDR为0.2dB。

5.效果评估

在这里插入图片描述
DPRNN, TFPSNet, TF-GridNet的比较。
Row3 TF-GridNet with masking,使用learned embedded space.
Row4 使用 complex ratio masking.
Table3 表明使用 Complex spectral mapping效果要比masking效果好。
在这里插入图片描述
Row 1-4 表明 和I=1,D=128相比,I=8,D=16并没有降低性能。但是I=8,D=16的设置内存较低。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值