目录
在对图像进行训练时,通常会对图像进行旋转或者随机裁剪,这样是为了增加数据的多样性,但是音频数据却无法直接这么处理,这是因为音频是具有时序性,我们可以通过简单的加噪处理来对音频做一个简单的增强,这是在原始音频基础上的,之后我们对音频提取的特征shape是固定的,此时我们可以对提取出的特征来进行增强,比较常见的就是频域和时域的增强,那么如何理解频域和时域的增强呢,来看下面这幅图:
这幅图是我对一段11秒的音频进行梅尔语谱特征提取出来的结果,横轴即为时域,纵轴即为频域,那么所谓的时域增强和频域增强无非就是在横轴和纵轴随机mask,mask首先确定维度,然后再用同一个数值覆盖即可,如下图:
如此便完成啦!代码如下: