在做语种识别任务中,初期的语料库的收集就显得尤为重要,下面整理了常用到的几个语种数据集,希望对大家能够有所帮助。
语种识别公开语料库
1. Voxforge
Voxforge数据集下载地址:http://www.voxforge.org/zh
数据集特点
:
- 英语、法语、德语、西班牙语、意大利语、俄语的样本数据均较为丰富,可以使用,
- 数据集的某些数据存在噪声,并且每个音频的录制设备差异较大。
2.Common Voice:
Common Voice公开语料集下载:
数据集特点
:
- 语料更新较快
- 每个语种的数据大小变化较大,主要还是主要语种的数据较多
- 所以文件均为mp3文件,音频信息有所损失
- 音频未经过严格审核,也含有少量噪声
3.LibriVox
LibriVox语料库下载地址
数据集特点
:
- 所有数据均为朗读音频,非常纯净,
- 因为语音纯净,也可以用来做加噪实验
- 语种数量较少,仅有英语、法语、德语、西班牙语、意大利语五个语种的训练样本够多。
4.中文thchs30数据
中文thchs30语料库下载:http://www.openslr.org/18/
数据集特点
:
- 国内公布的中文的数据集,数据知名度很高
- 可以与其他数据集组成大的训练数据
5.Slavic language recordings
Slavic language recordings 语种下载地址:
6.Kaggle公开数据集
Kaggle语种数据搜索:
数据集特点
:
- 使用的人较少,可以作为补充数据集
7.IIIT-H Indic Speech Databases
数据下载地址:http://festvox.org/databases/iiit_voices/
数据特点
:
- 阿三国发表的论文应用的比较多
- 主要是阿三国的方言识别,在国内可能不太适用
8 聚数力(目前数据免费)
数据网站地址:聚数力官网链接:
数据特点
:
- 应用较少,可以作为补充数据集
9.speechbrain公开的语种语料
45语种
github地址:45语种的github地址,戳进来即可
共计45种语种,每个语种的数据相对均衡。
107语种
github地址:107语种链接,内附下载地址和下载方法,直接戳进来即可
共计107种语种,每个语种的语料时长不一致。
数据集特点
:
- speechbrain公布的两个多语种的语料库,可以和以往的方案作对比
- 每个数据集的样本数存在较大区别
- 107语种的数据量较大