Data Augmenting Contrastive Learning of Speech Representations in the Time Domain

Data Augmenting Contrastive Learning of Speech Representations in the Time Domain

1. 论文摘要

依据过去语音片段预测未来片段的CPC方法被证明是一种有效的表征学习方法,本文作者在CPC算法模型的基础上, 通过对过去语音片段在时间域上的数据增强(WavAugment) 取得了比其他方法更高效、更好的表征效果。通过patch modification, additive noise, reverberation 三种增强方法可以将CPC的表现提升18-22%, 并且对于有监督数据有限的phoneme 分类任务也能提升12-15%。

2. 模型介绍

*数据增强背景:
基本的时域增强将输入的采样率修改很小(±10%),这会改变持续时间和音高。另一种方法是添加噪声,再加上房间脉冲响应函数来模拟在空间中扩散的点源。 SpecAugment [17]是一种谱域增强,其作用是mask频率和/或时间带。我们介绍了WavAugment,它在时域中实现了这些扩充,并为数据加载的实时应用进行了优化。
*CPC2
提出了新的CPC的模型结构,首先输入Raw wave 过encoder( kernel size [10,8,4,4,4], strides [5,4,2,2,2])生成 z t z_t zt, 再经过一个context network( 两层 lstm layer)生成 c t c_t ct, 在做contrast 预测时, c t c_t ct还要过一个predictor layer 生成 P r e d k Pred^k Predk, 这里predictor layer 做了几组对比实验:
在这里插入图片描述
发现采用一层多头注意力(K个, 相当于K个分类器)的Transfomer 的效果较好, 并且相比其他论文的做法:采用K个独立的Transformer, 然后每个只用单头来做不同正例时间步的预测,极大的减少了训练时间。然后再将 P r e d k Pred^k Predk与包含正负例的多个未来表征做内积计算contrast loss。
在这里插入图片描述
文章中的未来时间步K的正例范围为1-12, 负例个数为从batch中随机取得128个。
在这里插入图片描述

  • 数据增强的方案
    (1)对batch内所有的sequcene 采用相同的增强方法。
    (2)past 和future 的sequence 采用相同的, negatives 采用不同的方法。
    (3)只对past 的sequnce采用数据增强。
    (4)对past 和 future sequcen 采用不同的增强方法。
    实验证明,(3)(4)的效果较好。

3.实验结果

*实验1 增强方法的组合
在这里插入图片描述
对于单一增强方法,pitch、reverb、bnandrej 对past 做增强要比对past+future都做要好,唯一例外的是add noise; 对于多种增强方法的组合,pitch + add+reverb的方法效果最好。

  • 实验2 扩展到其他语言

在这里插入图片描述
只采用有限的 in-domain训练结果的表现并不能达到SOTA, 但是采用一些out-domain 的语料以及增加context 网络中lstm layer数为3可以达到更优的效果。

  • 实验3 预训练和有限监督数据的下游任务结果
    在这里插入图片描述
    无一例外,采用CPC2+wavaug的表现最好,同时在做音素预测的任务,数据增强只采用pitch augmentation的效果最好。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值