多语言文本到音素转换工具phonemizer实践

最新推荐文章于 2024-08-09 07:36:21 发布

sparkexpert

最新推荐文章于 2024-08-09 07:36:21 发布

阅读量5.9k

点赞数 1

分类专栏：语音识别文章标签：音素转换多语言 espeak

本文链接：https://blog.csdn.net/sparkexpert/article/details/79941119

版权

语音识别专栏收录该内容

8 篇文章 3 订阅

订阅专栏

音素是语言识别领域的最小单元，文本到音素的转换是TTS任务（文本转语音）中重要的步骤之一，最近用了下python包（phonemizer），实践了下，觉得还挺有用的，因此记录一下过程。

（1）　下载源码，https://github.com/bootphon/phonemizer

（2）　进行源码的编译和查看，发现其调用的是festival and espeak/espeak-ng 两个系统的东西，即相当于提供了一个接口调用的东西。上述两种音素转换工具的区别如下：Festival provides US English phonemization with syllable tokenization, espeak endows multiple languages but without syllable boundaries.，可见espeak支持更多的语言。

（3）　利用源码进行调试，编译，简化其输入和输出，即可进行调试。

实验一：festival调用：en-->us，输入hello，得到的是美语的音素。

实验二：espeak调用：en-->us，输入hello，得到的是美语的音素。

实验三：espeak调用：fr-->fr，输入法语的“你好世界”，得到的是法语的音素。

实验三：espeak调用：spanish，输入西班牙语的“你好”，得到的是西班牙语的音素。

sparkexpert

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
多语言文本到音素转换工具phonemizer实践

音素是语言识别领域的最小单元，文本到音素的转换是TTS任务（文本转语音）中重要的步骤之一，最近用了下python包（phonemizer），实践了下，觉得还挺有用的，因此记录一下过程。（1）　下载源码，https://github.com/bootphon/phonemizer（2）　进行源码的编译和查看，发现其调用的是festival and espeak/espeak-ng 两个系统的东西，即...
复制链接

扫一扫

专栏目录