语种识别公开语料库（可用于学术科研和项目研究）（自用）

王延凯的博客

已于 2023-01-04 11:54:04 修改

阅读量5.1k

点赞数

分类专栏：语音信号处理语音识别文章标签：语料库语种识别

于 2021-07-11 10:59:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38468077/article/details/117427770

版权

语音信号处理同时被 2 个专栏收录

24 篇文章 37 订阅

订阅专栏

15 篇文章 6 订阅

订阅专栏

在做语种识别任务中，初期的语料库的收集就显得尤为重要，下面整理了常用到的几个语种数据集，希望对大家能够有所帮助。

语种识别公开语料库

1. Voxforge
2.Common Voice:
3.LibriVox
4.中文thchs30数据
5.Slavic language recordings
6.Kaggle公开数据集
7.IIIT-H Indic Speech Databases
8 聚数力（目前数据免费）
9.speechbrain公开的语种语料

1. Voxforge

在这里插入图片描述

Voxforge数据集下载地址：http://www.voxforge.org/zh
数据集特点：

英语、法语、德语、西班牙语、意大利语、俄语的样本数据均较为丰富，可以使用，
数据集的某些数据存在噪声，并且每个音频的录制设备差异较大。

2.Common Voice:

在这里插入图片描述
Common Voice公开语料集下载：
数据集特点：

语料更新较快
每个语种的数据大小变化较大，主要还是主要语种的数据较多
所以文件均为mp3文件，音频信息有所损失
音频未经过严格审核，也含有少量噪声

3.LibriVox

在这里插入图片描述
LibriVox语料库下载地址
数据集特点：

所有数据均为朗读音频，非常纯净，
因为语音纯净，也可以用来做加噪实验
语种数量较少，仅有英语、法语、德语、西班牙语、意大利语五个语种的训练样本够多。

4.中文thchs30数据

在这里插入图片描述

中文thchs30语料库下载：http://www.openslr.org/18/
数据集特点：

国内公布的中文的数据集，数据知名度很高
可以与其他数据集组成大的训练数据

5.Slavic language recordings

在这里插入图片描述

Slavic language recordings 语种下载地址：

6.Kaggle公开数据集

在这里插入图片描述

Kaggle语种数据搜索：
数据集特点：

使用的人较少，可以作为补充数据集

7.IIIT-H Indic Speech Databases

在这里插入图片描述

数据下载地址：http://festvox.org/databases/iiit_voices/

数据特点：

阿三国发表的论文应用的比较多
主要是阿三国的方言识别，在国内可能不太适用

8 聚数力（目前数据免费）

在这里插入图片描述
数据网站地址：聚数力官网链接：
数据特点：

应用较少，可以作为补充数据集

9.speechbrain公开的语种语料

45语种
github地址：45语种的github地址，戳进来即可
在这里插入图片描述
共计45种语种，每个语种的数据相对均衡。

107语种
github地址：107语种链接，内附下载地址和下载方法，直接戳进来即可
在这里插入图片描述
共计107种语种，每个语种的语料时长不一致。

数据集特点：

speechbrain公布的两个多语种的语料库，可以和以往的方案作对比
每个数据集的样本数存在较大区别
107语种的数据量较大

王延凯的博客

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

王延凯的博客 CSDN认证博客专家 CSDN认证企业博客

码龄8年

107: 原创

1万+: 周排名

212万+: 总排名

83万+: 访问

: 等级

5679: 积分

7639: 粉丝

1175: 获赞

517: 评论

6593: 收藏

私信

关注

热门文章

分类专栏

最新评论

MFCC算法讲解及实现（matlab）
apocalypse0619: 语音信号怎么了呀？
中英文字数统计以及信息熵的计算
热爱可抵岁月长: 您好，请问能发一下西游记的txt吗？
CNN卷积神经网络实例(基于pytorch)
tangoppp: D:\Anaconda\python.exe "D:/Program Files/Python/Dl/pythonProject2/fig5.py" Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz Failed to download (trying next): HTTP Error 403: Forbidden Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to ./mnist\MNIST\raw\train-images-idx3-ubyte.gz 100%|██████████| 9912422/9912422 [00:06<00:00, 1466032.97it/s] Extracting ./mnist\MNIST\raw\train-images-idx3-ubyte.gz to ./mnist\MNIST\raw 请问，这是我没下载数据集之类的东西吗？我直接把博主的代码copy进pycharm中试的，纯小白，真的不懂
matlab对语音进行基音检测（基于matlab voicebox 工具包）
语音编解码的小白: 最后图形中的红色和蓝色代表什么？
超详细的gnuplot使用教程【2】
down^to^earth: Are you answer?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

王延凯的博客 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。