MetricGAN
原文:https://arxiv.org/abs/1905.04874
MetricGAN的主要思想是用神经网络模拟目标评估函数的行为,它可以用来模拟不可微目标评估函数的行为,如PESQ。该网络用来计算代理损失。为了帮助语音增强模型,计算代理损失的网络和增强模型会交替更新。
设表示归一化在0和1之间的目标评估度量的函数,其中
表示度量的输入,例如,对于PESQ和STOI,我们想度量的是一对增强语音
(或带噪语音
)及其对应的干净语音
,为了保证判别网络
的行为接近PESQ或STOI的度量
,
的目标函数
,分别用于干净语音指标估计和增强语音指标估计。其中
,
。
生成网络的训练完全依赖于判别网络的代理损失
表示期望分配的分数,如果希望生成干净语音,则将其设为1。
其流程如图
MetricGAN+
原文:https://arxiv.org/abs/2104.03538
相对于MetricGAN,MetricGAN+的改进主要有三点。
- 增加带噪语音的目标评价分数来训练判别器D
- 增加重放缓冲区样本比例,由0.1调整至0.2。重放缓冲区原理如下。
- 用于掩模估计的可学习Sigmoid函数:用可学习参数α控制Sigmoid函数形状,且将函数形式改为
(β=1.2)
MetricGAN-U
原文:https://arxiv.org/abs/2110.05866
U代表的意思是Unsupervised Learning。为了实现无监督学习,将MetricGAN中要求的干净语音去掉,判别器的目标函数改为。
此时很明显,Q计算的指标必须为非侵入性的,也就是不需要干净语音来计算。这样的指标包括ITU-T p.563, SRMR, DNSMOS等。原论文中使用的是SRMR和DNSMOS两个指标,分别用于降噪和解混响。
流程图如下