最近看一些Vox挑战杯的比赛论文,发现大家对vox数据集都进行了一些扩充(因为vox挑战杯限定只能使用vox2训练集进行训练)扩充的方法很简单,就是通过将vox中的原始声音文件进行加速或者减速,将这些处理过的文件进行重新保存,然后设置他们的标签与原说话人不同即可,本文将介绍一种很简单的方法对声音进行变速。
首先思考一下,声音文件读到计算机是什么呢?我们又是怎么实现对语音的加速和减速的呢?
看这段代码:
import soundfile as sf
data, sampling_rate = sf.read("/disc1/XXX/Dataset/Volceleb/voxceleb1/wav/id11246/kRIRJgDitYQ/00003.wav")
print(data)