python语音库_利用python进行音频数据增强

最新推荐文章于 2022-04-09 17:03:00 发布

weixin_39639381

最新推荐文章于 2022-04-09 17:03:00 发布

阅读量623

点赞数

文章标签： python语音库

本文探讨如何使用Python库librosa等进行音频数据增强，包括添加噪声、时间平移、时间拉伸和音高转换，以增强机器学习的语音数据集，防止模型过拟合。

摘要由CSDN通过智能技术生成

ffd5b48b0e704dc3b39a55f913945139

在这篇文章中，我将向您展示如何使用音频文件的数据增强来构建一种在机器学习数据集中生成更多样本的方法。

数据增强是一种生成合成数据的方法，即通过调整原始样本来创建新样本。这也我们就可以从一个样本中获得大量的数据。这不仅有助于我们增加数据集的大小，还提供了单个样本的多个变体，这有助于我们的机器模型避免过度拟合。

我们将使用free-spoken-digit-dataset数据集（https://github.com/Jakobovski/free-spoken-digit-dataset）。它是语音数字的免费音频数据集。它包含4个人的2000录音（每个人每个数字读50遍）。

本文使用到的Python库为librosa、 IPython.display.audio 和 matplotlib库。

首先导入库

from fastai import *

from fastai.vision import *

import pathlib

import os

from scipy import signal

from scipy.io import wavfile

from fastprogress import progress_bar

import librosa

import librosa.display

import IPython.display as ipd

data_path = pathlib.Path('./free-spoken-digit-dataset/recordings/')

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39639381

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python音频数据扩充比图像数据扩充更简单！

Python达人

04-13

2212

经典的Python深度学习网络Alex Net使用数据扩充的方式扩大数据集，取得较好的分类效果。在Python深度学习的图像领域中，通过平移、翻转、加噪等方法进行数据扩充。但是，在音频领域中，如何进行数据扩充呢？在这里还是要推荐下我自己建的Python开发学习群:483546416，群里都是学Python开发的，如果你正在学习Python ，小编欢迎你加入，大家都是软件开发党，不定期分享...

用 Python 训练自己的语音识别系统，这波操作稳了！

AI科技大本营

06-18

9189

作者 |李秋键责编 | Carol封图 |CSDN付费下载自视觉中国近几年来语音识别技术得到了迅速发展，从手机中的Siri语音智能助手、微软的小娜以及各种平台的智能音箱等等，各种语...

参与评论您还未登录，请先登录后发表或查看评论

python(3):音频数据增强处理

sinat_37106527的博客

06-08

2248

音频数据增强处理增强方法 1）时间延长（TS）：放慢或加快音频采样（同时保持音高不变）。将每个样本的时间拉伸四个因素：{0.81、0.93、1.07、1.23}。 2）音高转换（PS1）：提高或降低音频样本的音高（同时保持持续时间不变）。每个样本的音高偏移了四个值（以半音为单位）：{-2，-1、1、2}。 3）音高偏移（PS2）：由于我们的初始实验表明音高偏移是一种特别有益的扩充，因此我们决定创建第二个扩充集。这次，每个样本的音高偏移了四个较大的值（以半音为单位）：{-3.5，-2.5、2.5、3.5

audiomentations:用于音频数据增强的 Python 库。灵感来自专辑。对机器学习有用

08-04

听音用于音频数据增强的 Python 库。灵感来自。对深度学习有用。在 CPU 上运行。支持单声道音频和。可以集成到训练管道中，例如 Tensorflow/Keras 或 Pytorch。帮助人们在 Kaggle 比赛中获得世界一流的成绩。被制造下一代音频产品的公司使用。需要支持 GPU 的 Pytorch 替代品吗？查看！设置 pip install audiomentations 可选要求某些功能具有额外的依赖性。可以通过运行安装额外的 python 包依赖项 pip install audiomentations[extras] 特征额外的依赖快速加载 24 位 wav 文件 wavio LoudnessNormalization pyloudnorm Mp3Compression ffmpeg和 [ pydub或lameenc ]

音频数据增强及python实现

凌逆战的博客

10-02

4128

博客作者：凌逆战博客地址：https://www.cnblogs.com/LXP-Never/p/13404523.html 　　音频时域波形具有以下特征：音调，响度，质量。我们在进行数据增强时，最好只做一些小改动，使得增强数据和源数据存在较小差异即可，切记不能改变原有数据的结构，不然将产生“脏数据”，通过对音频数据进行数据增强，能有助于我们的模型避免过度拟合并变得更加通用。　　我...

Python 音频的数据扩充,你知道怎么用吗？

qq_39363022的博客

03-05

770

经典的深度学习网络AlexNet使用数据扩充（Data Augmentation）的方式扩大数据集，取得较好的分类效果。在深度学习的图像领域中，通过平移、翻转、加噪等方法进行数据扩充。但是，在音频（Audio）领域中，如何进行数据扩充呢？音频的数据扩充，主要有以下四种方式：音频剪裁（Clip）音频旋转（Roll）音频调音（Tune）音频加噪（Noise）音频解析基于librosa...

rtasr_python_demo_语音转写_语音python_DEMO

09-11

总结来说，对接科大讯飞的Python语音转写DEMO涉及到以下几个关键步骤： 1. 注册科大讯飞开发者账号并获取API密钥。 2. 使用Python发送HTTP请求到科大讯飞的语音识别API。 3. 处理音频数据，确保其符合科大讯飞的要求...

PythonSoundTools-master_python_语音_音频_TheFew_源码.zip

10-25

学习了Python音频处理后，我们可以开发各种实际应用，如音乐编辑软件、语音识别系统、语音唤醒设备、实时音频分析工具等。结合源码，实践是检验理论的最好方式，通过编写自己的音频处理程序，可以更好地理解和运用...

Pitch-detect-python.rar_python_python音调识别_音调识别_音调识别_音频

09-21

在音调识别领域，Python是一种常用的编程语言，它拥有丰富的库和工具，使得处理音频数据和实现音调识别变得相对简单。在这个名为“Pitch-detect-python.rar”的压缩包中，包含了一个名为“testpy.py”的Python源代码...

rtasr_python_demo_语音转写_语音python_DEMO.zip

10-11

【rtasr_python_demo_语音转写_语音python_DEMO.zip】这个压缩包文件主要包含了一个基于Python的语音转写（Automatic Speech Recognition, ASR）示例程序，它利用了RTASR（Real-Time Audio Speech Recognition）技术...

Python-基于深度学习的语音增强使用keraspython

08-11

基于深度学习的语音增强使用keras python

python图像数据增强代码，深度学习用，分割，合并，数据增强，批量化修改文件名，归一化大小

03-28

python图像数据增强代码，深度学习用，分割，合并，数据增强，批量化修改文件名，归一化大小

**python代码实现目标检测数据增强**

12-20

python代码实现目标检测数据增强 目标检测数据增强 疫情期间在家也要科研，碰上了数据增强，找了很多代码，但是还是没跑通，最后选择了这种处理方式来完成数据增强处理。同时特别感谢csdn上给我提供帮助的大佬们，虽然未曾谋面，但是每一步的学习真的感恩~~ ##项目里需要做一个数据增强预处理试验，由于我用的YOLOv3的pytorch框架，博客找了一圈没有找到内置的代码，最后找到了一篇比较好的数据增强的办法，现在记录下来方便以后查看，其实之前总是碰到一些技术性的问题总没有时间去写博客，我觉得这样非常不好，以后碰到类似的又要去调bug，还是养成随手记录博客的习惯，也可以帮助更多需要的童鞋。我参考的数

python图像数据增强

03-16

此代码用于实现图像数据增强，对图片进行批量处理。包括图片旋转、翻转、模糊、增加噪声、亮度几种处理。运行需要安装python、opencv、numpy等。使用时将图片统一放在img文件夹中，并将img文件夹和下载的py文件放在一起。

目标检测的数据增强python代码

最新发布

10-15

目标检测的数据增强python代码，包括： 1. 裁剪(需改变bbox) 2. 平移(需改变bbox) 3. 改变亮度 4. 加噪声 5. 旋转角度(需要改变bbox) 6. 镜像(需要改变bbox) 7. cutout等方法。

开发python语音匹配度_基于深度学习的语音增强使用keras python

weixin_39536630的博客

12-10

313

deep_learning_for_speech_enhancement_keras_pythondeep learning based speech enhancement using keras pythonAuthors: YONG XU & QIUQIANG KONGGoal:Make the GPU-C++ code project convert to python code ...

数据增强（python）

qq_39918087的博客

01-26

9775

''' 这是图片数据增强的代码，可以对图片实现： 1. 尺寸放大缩小 2. 随机裁剪 3. 变形 4. 旋转（任意角度，如45°，90°，180°，270°） 5. 翻转（水平翻转，垂直翻转） 6. 明亮度改变（变亮，变暗） 7. 像素平移（往一个方向平移像素，空出部分自动填补黑色） 8. 添加噪声（椒盐噪声，高斯噪声） ''' import os import cv2 import numpy as np # import tenso

python数据增强代码_深度学习中的数据增强（平移和旋转）python代码实现

weixin_39524741的博客

12-10

1382

import osimport numpy as npimport cv2Angles = [10, 20, 100]Trans_Select_Imgs = 10def read_imgs(imgs_path):imgs_name = os.listdir(imgs_path)imgs = []for img_name in imgs_name:img_path = os.path.join(im...

TensorFlow和Pytorch中的音频增强

数据派THU

04-09

913

来源：Deephub Imba 本文约2100字，建议阅读9分钟本文将介绍如何将增强应用到 TensorFlow 中的数据集的两种方法。对于图像相关的任务，对图像进行旋转、模糊或调整大小是常见的数据增强的方法。因为图像的自身属性与其他数据类型数据增强相比，图像的数据增强是非常直观的，我们只需要查看图像就可以看到特定图像是如何转换的，并且使用肉眼就能对效果有一个初步的评判...

Python库 rasa_audiocodes-0.4.0：音频处理工具集

特别是在一些需要集成音频接口的自动化客服系统、语音助手或是语音识别应用中，这样的库是非常有用的。此外，考虑到库的版本号为0.4.0，它属于早期开发阶段。早期版本通常意味着库的功能可能不是非常成熟，可能还...