推荐开源项目:CSS10——十种语言单说话人语音数据集
项目介绍
CSS10(Collection of Single Speaker Speech Datasets for 10 Languages)是一个包含十种语言单说话人语音数据集的开源项目。该项目由Kyubyong Park和Tommy Mulc开发,旨在为语音研究领域提供一个高质量、多语言的单说话人语音数据资源。数据集从LibriVox有声书中提取短音频片段及其对应的文本,并通过训练两种神经文本到语音模型(DCTTS和TACOTRON)来验证数据集的质量。项目还提供了预训练模型和音频样例,方便研究人员和开发者使用。
项目技术分析
技术栈
- 操作系统:Linux
- 编程语言:Python 2.X或3.X
- 深度学习框架:TensorFlow 1.3
- 其他依赖库:NumPy、Librosa、Matplotlib、tqdm、scipy
数据集构成
CSS10涵盖了以下十种语言及其对应的有声书和说话人:
| 语言代码 | 语言 | 有声书 | 时长 | 朗读者 | 数据集链接 | | --- | --- | --- | --- | --- | --- | | de | 德语 | Meister Floh等 | 16:42:45 | Hokuspokus | CSS German | | el | 希腊语 | Παραμύθι χωρίς όνομα | 04:08:14 | Rapunzelina | CSS Greek | | es | 西班牙语 | Bailén等 | 23:49:49 | Tux | CSS Spanish | | fi | 芬兰语 | Gulliverin matkat kaukaisilla mailla等 | 10:32:03 | Harri Tapani Ylilammi | CSS Finnish | | fr | 法语 | Les Misérables等 | 19:09:03 | Gilles G. Le Blanc | CSS French | | hu | 匈牙利语 | Egri csillagok | 10:00:25 | Diana Majlinger | CSS Hungarian | | ja | 日语 | 明暗 | 14:55:36 | ekzemplaro | CSS Japanese | | nl | 荷兰语 | 20.000 Mijlen onder Zee | 14:06:40 | Bart de Leeuw | CSS Dutch | | ru | 俄语 | Ice March等 | 21:22:10 | Mark Chulsky | CSS Russian | | zh | 中文 | 朝花夕拾等 | 06:27:04 | Jing Li | CSS Chinese |
预训练模型和音频样例
项目提供了DCTTS和TACOTRON两种模型的预训练版本及其生成的音频样例,用户可以直接下载和使用。
项目及技术应用场景
- 语音合成研究:CSS10为研究人员提供了一个多语言的单说话人语音数据集,可用于训练和评估各种语音合成模型。
- 语音识别开发:开发者可以利用这些数据集进行语音识别系统的开发和优化。
- 语音转换应用:数据集可用于研究和实现语音转换技术,如将一种语言的语音转换为另一种语言的语音。
- 语言教学工具:教育机构可以利用这些语音数据开发语言学习工具,帮助学生提高听力和发音能力。
项目特点
- 高质量数据:所有音频均来自LibriVox有声书,保证了语音质量和文本的准确性。
- 多语言支持:涵盖十种常用语言,满足多语言研究需求。
- 单说话人特性:每个数据集均由单一说话人录制,便于进行说话人特定的语音任务。
- 预训练模型:提供DCTTS和TACOTRON两种模型的预训练版本,用户可快速