Improving noise robustness of contrastive speech representation learning with speech reconstruction

Improving noise robustness of contrastive speech representation learning with speech reconstruction

研究机构: The Ohio State University,Microsoft Corporation

文章来源:[2110.15430] Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction (arxiv.org)

摘要

噪声鲁棒性对于在现实环境中部署自动语音识别 (ASR) 系统至关重要。 降低噪声干扰影响的一种方法是采用预处理模块进行语音增强,然后将增强后的语音馈送到ASR后端。 在这项工作中,我们没有使用传统的级联方法来抑制背景噪声,而是采用了一种通过改进的自监督框架学习噪声鲁棒性表示,用于噪声语音识别。我们提出将重建模块与对比学习相结合,并对噪声数据执行多任务连续预训练。 重建模块用于辅助学习以提高学习到的表示的噪声鲁棒性,因此在推理过程中不需要。实验证明了我们提出的方法的有效性。 我们的模型显著降低了合成带噪 LibriSpeech 测试集的单词错误率 (WER),与数据增强相比,噪声清洁/其他测试集的 WER 减少了约 4.1/7.5%。对于来自 CHiME-4 挑战(单通道)的真实世界嘈杂语音,我们在没有任何去噪前端的情况下获得了最先进的 ASR 性能。此外,我们实现了与仅 16% 的标记数据报告的最佳监督方法相当的性能。

主要创新点

模型整体结构如图(左)所示,具体的重建模块如图(右)所示,包含BLSTM+layernorm+CNN upsampler,CNN upsampler主要作用就是上采样重建语音。
在这里插入图片描述

1.在wav2vec2.0的基础之上,引入reconstruction 任务,从noisy 语音显式重建干净语音。

2.重建模块受convolution recurrent network(CRN)启发。CNN upsapmler部分和feature encoder模块完全相反。

3.损失函数,额外引入reconstruction loss。
在这里插入图片描述

实验结果

合成带噪数据:

Clean数据:librispeech train-clean-100

训练集noise数据:DNS-challenge

测试集noise数据:MUSAN

SNR: {5,6,7,…,20}dB

真实场景带噪数据:CHIME-4 challenge data

实验结果1:

在开源预训练960h模型的基础上继续训练(continual training),预训练数据为100h train-clean-100带噪数据。Finetune数据为libri-light 10h数据。
在这里插入图片描述

1.Baseline是开源pre-train 960h finetune 10h在对应测试集上的结果。clean集合上性能好,noisy集合上性能差。

2.不采用RCModule,进行continual training,会发现在noisy集合上性能提升,在clean集和上性能下降。原因:在带噪数据上训练,预训练模型忘记了在干净数据上学习到的信息。

3.采用RCModule,进行continual training,clean集合上性能下降不大,noisy集合上性能有提升。

实验结果2:

真实场景带噪数据实验
在这里插入图片描述

不需要利用前端处理模块,仅利用16%的有监督训练数据就能达到有监督方法的性能

实验结果3:

重建模块的位置选择
在这里插入图片描述
实验表明在transformer输出之后进行重建性能最好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值