音频数据集的加载

最新推荐文章于 2023-04-23 15:02:21 发布

bottle想暴富

最新推荐文章于 2023-04-23 15:02:21 发布

阅读量1.7k

点赞数 3

文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42474594/article/details/105973423

版权

知识整理

这几天在做一个课程设计，涉及到了需要读取指定文件夹下的音频文件进行相关的训练，一开始在数据集的读取和标签的加载这里花了一些时间，所以这里记录整理一下，只要能有一个人得到一点帮助就很很有用了。

数据集描述

首先我是需要读取一部分指定的音频文件进行训练，比如我只想训练一部分我重新整合好的数据集，而不是把原始数据集直接拿来使用，因为这个数据集的数据分布不是特别的均匀，就比较容易导致训练出来的效果不是很好。

加载音频文件
这里只说一下几个我用过的库：ffmpeg，opencv，librosa库。其中ffmpeg实际上是一个软件，拼接音频、剪切、音频和视频结合等等都可以。三个都可以通过pip install直接安装，opencv是很常用的音频和图像处理的库了，比较方便能够对视频进行各种处理。librosa是这次实验才使用的库，主要是利用它来进行特征的提取。其他的音频库还有pydub，pyaudio等等。

ffmepg：文档阅读
librosa：文档阅读
上面是英文文档，这里有一个小伙伴进行了一下翻译，如果懒得去读英文的可以去这里
opencv：文档阅读
pydub：文档阅读
pydub需要依赖 libav或者ffmpeg。[安装]
pyaudio：文档阅读

数据集获取

使用的是asvspoof挑战赛2019的语音数据集

这里给出ASVspoof2017数据集的网盘链接，因为通常很多下载数据集的网址都有限速，挂梯也增加不了速度那种。
提取码：fzya[数据集获

最低0.47元/天解锁文章

bottle想暴富

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
15
评论
音频数据集的加载

这几天在做一个课程设计，涉及到了需要读取指定文件夹下的音频文件进行相关的训练，一开始在数据集的读取和标签的加载这里花了一些时间，所以这里记录整理一下。数据集描述这里使用的是asvspoof挑战赛的语音数据集，它是分为了bonfied和spoof两种，还有不同的欺骗类型。这里首先给出数据集的标签文件格式：可以看到第五列就是它对应的类型标签，当然如果你做的分类问题不是判断是欺骗语音还是真实语音，...
复制链接

扫一扫

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。