语音数据集下载地址汇总| 免费的汉语说话人识别语料库 | Common Voice 数据集 | 下载总结

❤️【专栏:数据集整理】❤️ 之【有效拒绝假数据】


👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀


📔 Acoustic-Phonetic Continuous Speech Corpus【英文】


🔴 数据集链接
🔵 数据集简介

1-1


📕 commonvoice [ 中文]


🟧 下载链接
🟨 该链接下载界面如下

1-0

🟦 该链接下还可以关注的数据集如下

2


📗 中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus



📘 一个免费的汉语说话人识别语料库【A Free Chinese Speaker Recognition Corpus】


🔴 数据集介绍

这是一个“户外”收集的大规模说话人识别数据集

  • 数据集由两个子集 CN-Celeb1 和 CN-Celeb2 组成。

  • 所有音频文件都被编码为单声道,并以 16kHz 的频率采样,精度为 16 位。

  • 对于 CN-Celeb1,它包含来自 1,000 位中国名人的 130,000 多条话语,并涵盖了现实世界中的 11 种不同类型。

  • 对于 CN-Celeb2,它包含来自 2,000 位中国名人的 520,000 多条话语,涵盖了现实世界中的 11 种不同类型。

  • 数据收集过程由清华大学语音与语言技术中心组织。

数据集详细信息

  • 语种:中文
  • 内容:自由文本
  • 音频参数:16 kHz,16 bits,单通道
  • 数据类型:说话人识别语料库
  • 录音环境:
  • 娱乐、访谈、唱歌、戏剧、电影、视频博客、直播、演讲、电视剧、朗诵和广告
🔵 下载地址
🟣 下载主页

5-1

这里下载了 CN-Celeb1 的 cn-celeb_v2.tar.gz [22G] 数据压缩包,解压查看内容,分析如下

  • flac 格式音频

查看数据集文件目录

# tree 查看 两个层级

 tree -L 2
 
.
├── 1911.01799.pdf
├── data
│   ├── id00000
│   ├── id00001
│   ├── id00002
│   ├── id00003
│   ├── id00004
│   ├── id00005
│   ├── id00006
...
...
│   ├── id00996
│   ├── id00997
│   ├── id00998
│   └── id00999
├── dev
│   └── dev.lst
├── eval
│   ├── enroll
│   ├── lists
│   ├── README.TXT
│   └── test
└── README.TXT

1003 directories, 4 files


📙 致谢


9-9


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨理学AI

不必打赏,关注博主公众号即可

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值