【论文随笔4】Foster Strengths and Circumvent Weaknesses: a Speech Enhancement Framework

原文链接:【论文随笔4】Foster Strengths and Circumvent Weaknesses: a Speech Enhancement Framework - 知乎背景这是关于speech enhancement (SE)语音增强的一篇文章,文中借鉴了collaborative learning 协作学习 的思路,来促使网络的两个分支相互协作。 语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声…https://zhuanlan.zhihu.com/p/431449349

背景

这是关于speech enhancement (SE)语音增强的一篇文章,文中借鉴了collaborative learning 协作学习 的思路,来促使网络的两个分支相互协作。

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。

原文链接:Foster Strengths and Circumvent Weaknesses: a Speech Enhancement Framework with Two-branch Collaborative Learning

https://arxiv.org/pdf/2110.05713.pdf​arxiv.org/pdf/2110.05713.pdf

正文

1. 摘要(Abstract)

近来的单通道语音增强通常将时域的波形转到时频域,然后将幅度谱(magnitude spectrum)或者复频谱(complex spectrum)作为优化目标。然而,基于幅度谱和复频谱的方法各有优劣。所以,文中提到了一个统一的双分支框架以扬长避短。此框架可充分利用幅度谱中明显的频谱规律,以打破幅度谱方法的瓶颈。分支中使用了协作专家模块(collaborative expert block)结构及其变体,以替代常规的卷积层。在TIMIT基准上的实验表明了此方法的有效性。

2. 引言(Introduction)

已有的关于单通道语音增强的研究,可以被划分为两类:基于时域波形的估计;基于时频域频谱的重构。由于频谱中包含了更明显的特征模式,使得抑制时频域的噪声而不是时域的噪声似乎具有更大的优势。

大多数关于幅度谱恢复的探索研究,都直接将噪声相位信息应用于语音波形重建。然而,没有经过处理的相位信息会限制基于幅度谱的语音增强方法的上限。基于此,有研究者提出一个双流框架,利用幅度信息来促进相位预测。

文中认为相位信息具有随机性,即使借助外部知识,也难以基于相位谱对相位信息进行建模。考虑到每种训练模式的优缺点,即基于幅度谱的方法可以利用明显的频谱规律,而基于复频谱的方法可以隐式的估计相位信息,所以,文中提出了一个统一的双分支框架以促进不同范式的优势并规避其劣势。具体而言,文中将语音增强任务分解为两个子任务:一个分支被直接用于幅度谱重建,另一个分支则隐式的估计其相位。

在不同分支的设计中,来自幅度谱分支的信息被用作额外的监督信号,以促进复频谱分支的处理。同时,复频谱分支中的隐式相位估计将作为噪声相位的替代品。此外,受专家学习的启发,分支中使用了协作专家模块(collaborative expert block)结构及其变体,以提高模型的特征处理能力。

3. 方法(Methodology)

文中设计的语音增强有两个目标,此系统应该

1)充分利用每种训练范式的优点

为此,文中提出了双分支的语音增强框架,同时恢复幅度谱和相位谱。

2)每个分支应尽力避免其弊端

考虑到人声、歌声在幅度谱上容易区分,并且幅度谱和复频谱之间存在潜在的关联,所以文中使用了来自幅度谱分支的信息来校准复频谱分支的特征处理。此外,基于复频谱隐式优化的相位信息将与基于幅度谱分支估计的幅度谱一起来重构语音信号。具体模型图如下所示。

图2:(a)文章所提出的方法;(b) encoder和decoder,其中#m_n表示卷积核的尺寸;(c) 是 (a) 中的堆叠时间卷积模块S-TCM结构;(d)和(e)分别是 协作专家模块 与 补偿和协作专家模块 (compensatory and collaborative expert block)。

其中,Com 是指来自基于幅度的分支的补偿特征,它通过直接加法操作影响门控操作。此外,为简单起见, (d) (e) 中省略了归一化和激活。堆叠时间卷积模块S-TCM被用来捕捉长短时的序列依赖。其中,应用自门控操作以更好地控制信息流。

图2(a)中,  是短时傅里叶变换后的噪声复频谱,[公式]是从基于复数流中估计出来实部和虚部。然后,通过三角函数从[公式]中估计出复相位 [公式] 。最后,估计出的复相位[公式]与估计出的幅度值[公式]一起,通过逆短时傅里叶变换,重建出时域语音波形。

接下来,文中提出了一个问题:随着语音增强的应用场景逐渐多样化与复杂化,是否有必要为每一个场景单独训练一个语音增强模型,以保证其去噪性能?答案显然是否定的。

紧接着,文中从专家系统中得到灵感设计了协作专家模块CEB,如图2(d),以取代了常规的卷积模块。

说实话,我没明白作者的这个灵感是怎么来的,作者这里是为了justify自己提出这个模块的依据,但是我读了后感觉还是有点牵强与突兀。

协作专家模块CEB的原理是,使用两个并行的卷积作为不同的专家,不同的专家被期望对同一目标具有不同的见解,然后每个专家的输出通过门控机制对对方进行指导。

这个想法挺好,但作者这块的图画的不太好,两个sigmoid的输出的线条重合在了一起,让人第一眼误以为两个信息进行了融合,不过这也是个可尝试的方向,两个专家的信息交融后,各取所长,再去指导对方,而不是上来就去指导对方。
额外提一句,这种设计,出发点很好,但难以有严格的保证或者证明,最后训练出的模型如果无效,感觉说出所以然来,如果有效,就像中了彩票,充满了魔力。

最后,注意对于相位分支中的编码器,使用的是 CCEB(补偿和协作专家模块),以利用来自幅度分支的补偿特征作为额外的监督信号。

文中使用了绝对平均误差mean absolute errors (MAE) loss,即L1 Loss作为各个分支的损失函数。

MAE不考虑误差方向,MAE在中位数处取极小值,MAE对异常值的鲁棒性更强 [1]

幅度分支与相位分支是一起训练的,最终的损失函数L,是幅度分支的损失  与相位分支的损失 [公式] 的加权平均数。M是真实的幅度值。

实验结果证明了这个方法的有效性。(这是肯定的,要是无效,作者们也不会写了)

4. 结论(Conclusion)

文中提出了用于单声道语音增强的基于协作学习的双分支框架。 考虑到明显的频谱规律,和幅度与复谱之间的潜在关联,文中使用了基于幅度的分支的外部知识作为辅助来促进复谱的重建。 同时,来自基于复频谱分支的隐式的相位信息将取代充满噪声的相位信息。 这样做,可以很好地结合基于幅度的方法和基于复频谱的方法的优势。

5. 疑问(Question)

最后看的我有点疑惑:

1)文中提出了一个问题:随着语音增强的应用场景逐渐多样化与复杂化,是否有必要为每一个场景单独训练一个语音增强模型,以保证其去噪性能?

这个问题很好,但文中似乎是为了回答这个问题而提出的协同专家模块,真的解决、或缓解这个问题了吗?能在所有的噪声环境下有效工作吗?

文中未提供代码与demo,也未发布模型,不知道作者具体怎么实现的,也不知道实际去噪效果如何。

2)文中有一处看的我迷糊,估计是作者的typos

作者在loss这里的两个S应该是笔误了。

参考

  1. ^回归和分类损失函数(MSE、MAE、Huber、Exponential、Deviance、Hinge)_十里清风-CSDN博客
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值