1、参考资料:
-
CSDN之小白能看懂等Tacotron 中文语音合成实践https://blog.csdn.net/weixin_41021342/article/details/104984800
-
https://blog.csdn.net/weixin_41763134/article/details/90900539
-
知乎之语音合成那些事儿:https://zhuanlan.zhihu.com/p/101064153
-
知乎之当我们在谈论AI说话:语音合成: https://zhuanlan.zhihu.com/p/45517433
2、项目克隆:
-
git clone https://github.com/begeekmyfriend/tacotron.git ,该分支下datasets 目录中有对清华数据集thchs30.py的处理
-
下载源码 https://github.com/begeekmyfriend/tacotron/tree/mandarin, 注意分支选择,选择mandarin分支而不是默认的master分支。
3、数据下载:
-
清华数据集:THCHS30数据集(6.4G)
-
下载地址: https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
4、预训练模型下载:
5、环境搭建:
-
使用cpu环境搭建的环境,主要原因是GPU搭建后显存太小跑不动。
-
主要的安装包如下:
-
mxnet-cu90 1.5.1.post0
-
python 3.6.9
-
tensorflow 1.14
-
tqdm 4.11.2
-
scikit-learn 0.23.2
-
scipy 0.19.1
-
numpy 1.16.1
-
numba 0.43.0
-
keras 2.4.3
-
libraso 0.6.2
-
matplotlib 2.0.2
-
opencv-python 4.1.1.26
-
pandas 0.25.1
-
pillow 6.2.0
-
pip 19.2.3
-
requests 2.22.0
-
setuptools 41.4.0
-
falcon 1.2.0
-
inflect 0.2.5
-
Unidecode 0.4.20
-
6、启动训练脚本可能遇到的问题及解决办法
-
问题1:
-
问题2: