数据增强之SpecAugment

SpecAugment是一种针对语音识别和音频分类任务的数据增强方法,它在梅尔频谱上进行操作。该方法包括零均值归一化、时间轴平移、时间维度掩码和频率维度掩码四个步骤。通过随机地遮挡频谱的某些部分,SpecAugment增加了模型的泛化能力,无需额外参数,效果显著。这种方法简单且有效,对于音频领域的深度学习模型训练有很好的应用价值。
摘要由CSDN通过智能技术生成

度量学习DML之Contrastive Loss及其变种_程大海的博客-CSDN博客

度量学习DML之Triplet Loss_程大海的博客-CSDN博客

度量学习DML之Lifted Structure Loss_程大海的博客-CSDN博客

度量学习DML之Circle Loss_程大海的博客-CSDN博客

度量学习DML之Cross-Batch Memory_程大海的博客-CSDN博客

度量学习DML之MoCO_程大海的博客-CSDN博客

数据增强之SpecAugment_程大海的博客-CSDN博客

数据增强之MixUp_程大海的博客-CSDN博客


 

SpecAugment

        论文:《SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition》

        参考:https://github.com/bobchennan/sparse_image_warp_pytorch

        参考:语音算法阅读之SpecAugment - 卑微的蜗牛 - 博客园

        参考:https://github.com/qiuqiangkong/torchlibrosa

       参考:https://github.com/qiuqiangkong/audioset_tagging_cnn/blob/master/pytorch/models.py

        

        SpecAugment是一种log梅尔声谱层面上的数据增强方法,用到语音识别、音频分类领域。假设音频片段转换为梅尔频谱后的矩阵为表示频率维度,表示时间维度,SpecAugment主要做了四步操作:

  1. 将梅尔频谱进行零均值归一化x-x.mean(),这样在后续进行mask的时候,直接将mask的位置设置为0,同时还相当于填充了矩阵的均值
  2. 时间维度平移:论文里面说是做水平的左右扭转,具体没太理解,我就简单理解为水平平移
  3. 时间维度掩码:假设时间维度连续掩码的最大范围是,然后在范围内进行均匀采样一个,在范围内随机确定一个点,从位置开始沿着时间轴连续进行次掩码(将矩阵数值置为0)
  4. 频率维度掩码:假设时间维度连续掩码的最大范围是,然后在范围内进行均匀采样一个,在范围内随机确定一个点,从位置开始沿着时间轴连续进行次掩码(将矩阵数值置为0)

        简单来说就是,把梅尔频谱矩阵当做是一通道的图像数据,对图像进行平移数据增强,随机划掉图像矩阵上的连续若干行进行时间维度的增强,随机划掉图像矩阵上的连续若干列进行频率维度的增强,想法简单粗暴,无需额外参数,无需额外计算,效果还杠杠的。

        看一下具体效果,假设音频转化之后得到的矩阵就是下面这只狗,横轴表示时间维度,纵轴表示频率维度:

        原狗:

        时间轴平移狗:

        时间轴掩码狗:

        

        频率轴掩码狗:

        时间轴平移-时间轴掩码-频率轴掩码狗:

  • 10
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值