在这篇文章中,我将向您展示如何使用音频文件的数据增强来构建一种在机器学习数据集中生成更多样本的方法。
数据增强是一种生成合成数据的方法,即通过调整原始样本来创建新样本。这也我们就可以从一个样本中获得大量的数据。这不仅有助于我们增加数据集的大小,还提供了单个样本的多个变体,这有助于我们的机器模型避免过度拟合。
我们将使用free-spoken-digit-dataset数据集(https://github.com/Jakobovski/free-spoken-digit-dataset)。它是语音数字的免费音频数据集。它包含4个人的2000录音(每个人每个数字读50遍)。
本文使用到的Python库为librosa、 IPython.display.audio 和 matplotlib库。
首先导入库
from fastai import *
from fastai.vision import *
import pathlib
import os
from scipy import signal
from scipy.io import wavfile
from fastprogress import progress_bar
import librosa
import librosa.display
import IPython.display as ipd
data_path = pathlib.Path('./free-spoken-digit-dataset/recordings/')
<