Python音频的数据扩充

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

Python音频的数据扩充

经典的深度学习网络AlexNet使用数据扩充(Data Augmentation)的方式扩大数据集,取得较好的分类效果。在深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在音频(Audio)领域中,如何进行数据扩充呢?

音频的数据扩充,主要有以下四种方式:

  • 音频剪裁(Clip)

  • 音频旋转(Roll)

  • 音频调音(Tune)

  • 音频加噪(Noise)


音频解析基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


以下是Python的实现方式


01

音频剪裁


import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/love_illusion.mp3")  

# 读取音频print y.shape, sr wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr])  

# 写入音频


02

音频旋转


import cv2

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  

# 读取音频ly = len(y) y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze() lc = len(y_tune) - ly y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]print y.shape, sr wavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune)  

# 写入音频


03

音频调音


import cv2

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

 # 读取音频ly = len(y) y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze() lc = len(y_tune) - ly y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]print y.shape, sr wavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune)  

# 写入音频


04

音频加噪


import librosa

from scipy.io import wavfile

import numpy as np

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  

# 读取音频wn = np.random.randn(len(y)) y = np.where(y != 0.0, y + 0.02 * wn, 0.0)

 # 噪声不要添加到0上!print y.shape, sr wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y)  

# 写入音频


ML & AI 一个有用的公众号

640?wx_fmt=jpeg

640?wx_fmt=png长按,识别二维码,加关注
阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页