数据增强之SpecAugment

胖胖大海

已于 2022-03-04 21:16:32 修改

阅读量6.8k

点赞数 11

分类专栏：深度学习数据增强文章标签： SpecAugment 音频数据增强

于 2021-12-26 18:09:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cxx654/article/details/122158379

版权

深度学习同时被 2 个专栏收录

83 篇文章

订阅专栏

4 篇文章

订阅专栏

SpecAugment是一种针对语音识别和音频分类任务的数据增强方法，它在梅尔频谱上进行操作。该方法包括零均值归一化、时间轴平移、时间维度掩码和频率维度掩码四个步骤。通过随机地遮挡频谱的某些部分，SpecAugment增加了模型的泛化能力，无需额外参数，效果显著。这种方法简单且有效，对于音频领域的深度学习模型训练有很好的应用价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

度量学习DML之Contrastive Loss及其变种_程大海的博客-CSDN博客

度量学习DML之Triplet Loss_程大海的博客-CSDN博客

度量学习DML之Lifted Structure Loss_程大海的博客-CSDN博客

度量学习DML之Circle Loss_程大海的博客-CSDN博客

度量学习DML之Cross-Batch Memory_程大海的博客-CSDN博客

度量学习DML之MoCO_程大海的博客-CSDN博客

数据增强之SpecAugment_程大海的博客-CSDN博客

数据增强之MixUp_程大海的博客-CSDN博客

SpecAugment

论文：《SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition》

参考：https://github.com/bobchennan/sparse_image_warp_pytorch

参考：语音算法阅读之SpecAugment - 卑微的蜗牛 - 博客园

参考：https://github.com/qiuqiangkong/torchlibrosa

参考：https://github.com/qiuqiangkong/audioset_tagging_cnn/blob/master/pytorch/models.py

SpecAugment是一种log梅尔声谱层面上的数据增强方法，用到语音识别、音频分类领域。假设音频片段转换为梅尔频谱后的矩阵为，表示频率维度，表示时间维度，SpecAugment主要做了四步操作：

将梅尔频谱进行零均值归一化x-x.mean()，这样在后续进行mask的时候，直接将mask的位置设置为0，同时还相当于填充了矩阵的均值
时间维度平移：论文里面说是做水平的左右扭转，具体没太理解，我就简单理解为水平平移
时间维度掩码：假设时间维度连续掩码的最大范围是，然后在范围内进行均匀采样一个，在范围内随机确定一个点，从位置开始沿着时间轴连续进行次掩码（将矩阵数值置为0）
频率维度掩码：假设时间维度连续掩码的最大范围是，然后在范围内进行均匀采样一个，在范围内随机确定一个点，从位置开始沿着时间轴连续进行次掩码（将矩阵数值置为0）

简单来说就是，把梅尔频谱矩阵当做是一通道的图像数据，对图像进行平移数据增强，随机划掉图像矩阵上的连续若干行进行时间维度的增强，随机划掉图像矩阵上的连续若干列进行频率维度的增强，想法简单粗暴，无需额外参数，无需额外计算，效果还杠杠的。

看一下具体效果，假设音频转化之后得到的矩阵就是下面这只狗，横轴表示时间维度，纵轴表示频率维度：

原狗：

时间轴平移狗：

时间轴掩码狗：

频率轴掩码狗：

时间轴平移-时间轴掩码-频率轴掩码狗：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。