【MetricGAN系列】

MetricGAN
    原文:https://arxiv.org/abs/1905.04874
    MetricGAN的主要思想是用神经网络模拟目标评估函数的行为,它可以用来模拟不可微目标评估函数的行为,如PESQ。该网络用来计算代理损失。为了帮助语音增强模型,计算代理损失的网络和增强模型会交替更新。
    设{Q}'(I)表示归一化在0和1之间的目标评估度量的函数,其中I表示度量的输入,例如,对于PESQ和STOI,我们想度量的是一对增强语音G(x)(或带噪语音x)及其对应的干净语音y,为了保证判别网络D的行为接近PESQ或STOI的度量{Q}'D的目标函数,分别用于干净语音指标估计和增强语音指标估计。其中{Q}'(y,y)=1,0\leq {Q}'(G(x),y)\leq 1

生成网络G的训练完全依赖于判别网络的代理损失

s表示期望分配的分数,如果希望生成干净语音,则将其设为1。

其流程如图


MetricGAN+

        原文:https://arxiv.org/abs/2104.03538

        相对于MetricGAN,MetricGAN+的改进主要有三点。

  1.        增加带噪语音的目标评价分数来训练判别器D
  2. 增加重放缓冲区样本比例,由0.1调整至0.2。重放缓冲区原理如下。
  3. 用于掩模估计的可学习Sigmoid函数:用可学习参数α控制Sigmoid函数形状,且将函数形式改为(β=1.2)

MetricGAN-U

        原文:https://arxiv.org/abs/2110.05866

        U代表的意思是Unsupervised Learning。为了实现无监督学习,将MetricGAN中要求的干净语音去掉,判别器的目标函数改为

此时很明显,Q计算的指标必须为非侵入性的,也就是不需要干净语音来计算。这样的指标包括ITU-T p.563, SRMR, DNSMOS等。原论文中使用的是SRMR和DNSMOS两个指标,分别用于降噪和解混响。

流程图如下

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值