语种识别公开语料库(可用于学术科研和项目研究)(自用)

在做语种识别任务中,初期的语料库的收集就显得尤为重要,下面整理了常用到的几个语种数据集,希望对大家能够有所帮助。

1. Voxforge

在这里插入图片描述

Voxforge数据集下载地址:http://www.voxforge.org/zh
数据集特点

  1. 英语、法语、德语、西班牙语、意大利语、俄语的样本数据均较为丰富,可以使用,
  2. 数据集的某些数据存在噪声,并且每个音频的录制设备差异较大。

2.Common Voice:

在这里插入图片描述
Common Voice公开语料集下载:
数据集特点

  1. 语料更新较快
  2. 每个语种的数据大小变化较大,主要还是主要语种的数据较多
  3. 所以文件均为mp3文件,音频信息有所损失
  4. 音频未经过严格审核,也含有少量噪声

3.LibriVox

在这里插入图片描述
LibriVox语料库下载地址
数据集特点

  1. 所有数据均为朗读音频,非常纯净,
  2. 因为语音纯净,也可以用来做加噪实验
  3. 语种数量较少,仅有英语、法语、德语、西班牙语、意大利语五个语种的训练样本够多。

4.中文thchs30数据

在这里插入图片描述

中文thchs30语料库下载:http://www.openslr.org/18/
数据集特点

  1. 国内公布的中文的数据集,数据知名度很高
  2. 可以与其他数据集组成大的训练数据

5.Slavic language recordings

在这里插入图片描述

Slavic language recordings 语种下载地址:

6.Kaggle公开数据集

在这里插入图片描述

Kaggle语种数据搜索:
数据集特点

  1. 使用的人较少,可以作为补充数据集

7.IIIT-H Indic Speech Databases

在这里插入图片描述

数据下载地址:http://festvox.org/databases/iiit_voices/

数据特点

  1. 阿三国发表的论文应用的比较多
  2. 主要是阿三国的方言识别,在国内可能不太适用

8 聚数力(目前数据免费)

在这里插入图片描述
数据网站地址:聚数力官网链接:
数据特点

  1. 应用较少,可以作为补充数据集

9.speechbrain公开的语种语料

45语种
github地址:45语种的github地址,戳进来即可
在这里插入图片描述
共计45种语种,每个语种的数据相对均衡。

107语种
github地址:107语种链接,内附下载地址和下载方法,直接戳进来即可
在这里插入图片描述
共计107种语种,每个语种的语料时长不一致。

数据集特点

  1. speechbrain公布的两个多语种的语料库,可以和以往的方案作对比
  2. 每个数据集的样本数存在较大区别
  3. 107语种的数据量较大
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王延凯的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值