Python 音频数据扩充的技巧

最新推荐文章于 2024-06-21 12:33:31 发布

Python热爱者

最新推荐文章于 2024-06-21 12:33:31 发布

阅读量623

点赞数

文章标签： python

原文链接：https://www.jianshu.com/u/8f2987e2f9fb

版权

经典的深度学习网络AlexNet使用数据扩充（Data Augmentation）的方式扩大数据集，取得较好的分类效果。在深度学习的图像领域中，通过平移、翻转、加噪等方法进行数据扩充。但是，在音频（Audio）领域中，如何进行数据扩充呢？

Audio

音频的数据扩充主要有以下四种方式：

音频剪裁（Clip）
音频旋转（Roll）
音频调音（Tune）
音频加噪（Noise）

音频处理基于librosa音频库；矩阵操作基于scipy和numpy科学计算库。

以下是Python的实现方式：

音频剪裁

import librosa
from scipy.io import wavfile

y, sr = librosa.load("../data/love_illusion.mp3")  # 读取音频
print y.shape, sr
wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr])  # 写入音频

音频旋转

import librosa
import numpy as np
from scipy.io import wavfile

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频
y = np.roll(y, sr*10)
print y.shape, sr
wavfile.write("../data/raw/xxx_roll.mp3", sr, y)  # 写入音频

音频调音

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
import cv2
import librosa
from scipy.io import wavfile

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频
ly = len(y)
y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze()
lc = len(y_tune) - ly
y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]
print y.shape, sr
wavfile.write("../data/raw/xxx_tune.mp3", sr, y)  # 写入音频

音频加噪，注意：在添加随机噪声时，保留0值，否则刺耳难忍！

import librosa
from scipy.io import wavfile
import numpy as np

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频
wn = np.random.randn(len(y))
y = np.where(y != 0.0, y + 0.02 * wn, 0.0)  # 噪声不要添加到0上！
print y.shape, sr
wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y)  # 写入音频

Python热爱者

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python 音频数据扩充的技巧

经典的深度学习网络AlexNet使用数据扩充（Data Augmentation）的方式扩大数据集，取得较好的分类效果。在深度学习的图像领域中，通过平移、翻转、加噪等方法进行数据扩充。但是，在音频（Audio）领域中，如何进行数据扩充呢？Audio音频的数据扩充主要有以下四种方式：音频剪裁（Clip）音频旋转（Roll）音频调音（Tune）音频加噪（Noise）音频处理基于librosa音频库；矩阵操作基于scipy和numpy科学计算库。以下是Python的实现方式：音频剪裁im
复制链接

扫一扫