Data Augmenting Contrastive Learning of Speech Representations in the Time Domain

最新推荐文章于 2024-04-15 09:30:51 发布

pitaojun

最新推荐文章于 2024-04-15 09:30:51 发布

阅读量313

点赞数

分类专栏：语音识别asr 文章标签：机器学习深度学习

语音识别asr 专栏收录该内容

26 篇文章 8 订阅

订阅专栏

Data Augmenting Contrastive Learning of Speech Representations in the Time Domain

1. 论文摘要

依据过去语音片段预测未来片段的CPC方法被证明是一种有效的表征学习方法，本文作者在CPC算法模型的基础上，通过对过去语音片段在时间域上的数据增强（WavAugment) 取得了比其他方法更高效、更好的表征效果。通过patch modification, additive noise, reverberation 三种增强方法可以将CPC的表现提升18-22%，并且对于有监督数据有限的phoneme 分类任务也能提升12-15%。

2. 模型介绍

*数据增强背景：
基本的时域增强将输入的采样率修改很小（±10％），这会改变持续时间和音高。另一种方法是添加噪声，再加上房间脉冲响应函数来模拟在空间中扩散的点源。 SpecAugment [17]是一种谱域增强，其作用是mask频率和/或时间带。我们介绍了WavAugment，它在时域中实现了这些扩充，并为数据加载的实时应用进行了优化。
*CPC2
提出了新的CPC的模型结构，首先输入Raw wave 过encoder( kernel size [10,8,4,4,4], strides [5,4,2,2,2]）生成 $z_t$ , 再经过一个context network（两层 lstm layer)生成 $c_t$ ，在做contrast 预测时， $c_t$ 还要过一个predictor layer 生成 $Pred^k$ , 这里predictor layer 做了几组对比实验：
在这里插入图片描述
发现采用一层多头注意力（K个，相当于K个分类器）的Transfomer 的效果较好, 并且相比其他论文的做法：采用K个独立的Transformer，然后每个只用单头来做不同正例时间步的预测，极大的减少了训练时间。然后再将 $Pred^k$ 与包含正负例的多个未来表征做内积计算contrast loss。
在这里插入图片描述
文章中的未来时间步K的正例范围为1-12，负例个数为从batch中随机取得128个。

数据增强的方案
（1）对batch内所有的sequcene 采用相同的增强方法。
（2）past 和future 的sequence 采用相同的， negatives 采用不同的方法。
（3）只对past 的sequnce采用数据增强。
（4）对past 和 future sequcen 采用不同的增强方法。
实验证明，（3）(4)的效果较好。