音频数据扩充

最新推荐文章于 2024-08-20 01:33:19 发布

buchidanhuanger

最新推荐文章于 2024-08-20 01:33:19 发布

阅读量1.6k

点赞数 2

分类专栏：语音情感识别文章标签：音频扩充数据失衡数据扩充上采样

本文链接：https://blog.csdn.net/buchidanhuang/article/details/98047231

版权

语音情感识别专栏收录该内容

2 篇文章 2 订阅

订阅专栏

在机器学习任务中，存在数据集类别失衡的情况，那么解决类别失衡的方法是1.上采样即：扩充样本较少的类数据直到跟样本多的类差不多为止；或者用下采样即：在样本多的类中随机剔除部分数据。
针对上采样的话，在图像领域可以有的操作是：平移、旋转、加噪等，在语音领域可以有的操作是裁剪、旋转、调音、加噪。
1. 裁剪(clip)：即截取音频段

# 将原始视频裁剪20s
import librosa
from scipy.io import wavfile
y, sr = librosa.load('test.mp3')
wavfile.write('clip_20s.mp3', sr, y[20*sr:40*sr])

2. 旋转(roll)：即平移

# 将音频向右移动10s，最后10s将挪到最前面
import librosa
import numpy as np
from scipy.io import wavfile
y, sr = librosa.load('clip_20s.mp3')
y = np.roll(y, sr*10)
wavfile.write('roll.mp3', sr, y)

3. 调音(tune)

import librosa
import cv2
from scipy.io import wavfile
y, sr = librosa.load('clip_20s.mp3')
ly = len(y)
y_tune = cv2.resize(y, (1, int(ly*1.2))).squeeze()
lc = len(y_tune)-ly
y_tune = y_tune[int(lc/2):int(lc/2)+ly]
wavfile.write('tune.mp3', sr, y)

4. 加噪(noise)：为音频加入白噪声，呲呲响的那种哦！

import librosa
import numpy as np
from scipy.io import wavfile
y, sr = librosa.load('clip_20s.mp3')
wn = np.random.randn(len(y))
y = np.where(y != 0.0, y + 0.02 * wn, 0.0) # 噪声不要添加到0上！np.where(condition,x,y)condition为true取x,否者取y
wavfile.write("add_noise.mp3", sr, y) # 写入音频