频域增强(Frequency Domain Enhancements) or/and 时域增强(Time Domain Enhancements)

本文探讨了在音频处理中,如何通过频域和时域增强来增加数据多样性。通常,图像增强包括旋转和裁剪,但音频因其时序性不能直接应用相同方法。通过加噪处理后,对提取的固定形状音频特征进行增强。频域和时域增强主要涉及在梅尔语谱特征的横轴(时域)和纵轴(频域)上进行随机mask操作,然后用同一数值覆盖选定区域。文章提供了相关代码示例,输入形状为[batch, fre_feature, time]。" 114053071,10296280,Spring框架实战:构建Java Web项目,"['Java', 'Spring框架', 'Web开发', '依赖注入', '企业级应用']
摘要由CSDN通过智能技术生成

目录

在对图像进行训练时,通常会对图像进行旋转或者随机裁剪,这样是为了增加数据的多样性,但是音频数据却无法直接这么处理,这是因为音频是具有时序性,我们可以通过简单的加噪处理来对音频做一个简单的增强,这是在原始音频基础上的,之后我们对音频提取的特征shape是固定的,此时我们可以对提取出的特征来进行增强,比较常见的就是频域和时域的增强,那么如何理解频域和时域的增强呢,来看下面这幅图:

在这里插入图片描述

这幅图是我对一段11秒的音频进行梅尔语谱特征提取出来的结果,横轴即为时域,纵轴即为频域,那么所谓的时域增强和频域增强无非就是在横轴和纵轴随机mask,mask首先确定维度,然后再用同一个数值覆盖即可,如下图:
在这里插入图片描述

如此便完成啦!代码如下:

源码


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码匀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值