个性化语音——总结

最新推荐文章于 2024-05-23 10:58:49 发布

sunflower_Yolanda

最新推荐文章于 2024-05-23 10:58:49 发布

阅读量9.1k

点赞数 7

分类专栏：语音文章标签：个性化语音

本文链接：https://blog.csdn.net/sunflower_yolanda/article/details/51979551

版权

本文介绍了基于Voice Conversion和TTS Adaption的个性化语音技术，包括成果如VC、TTS Demos，以及AHOcoder工具。探讨了Voice Conversion和TTS方法的优缺点，提供了相关实验环境的搭建和关键点，如声音编码解码器、时间序列对齐算法、模型训练等。还提到了GMM和FFNN方法，并列举了实验中遇到的问题和未来改进方向。

摘要由CSDN通过智能技术生成

时间 2016.5.4~2016.7.20
成果：
- 基于Voice Conversion的demo：VC demo百度网盘分享
- 基于TTS adaption的demo：TTS adaption demo百度网盘分享
- TTS demo：基于HMM的TTS demo百度网盘分享
AHOcoder(Linux 64bit)：AHOcoder、AHOdecoder
方案：
- 基于Voice Conversion 的语音序列转换
  - 总体思路
- 基于TTS的adaption(使用DNN或HTS demo中方法)
可行性分析
- Voice Conversion 方法可以尝试，但效果达不到在工业界上应用的标准，学术界有利用GMM、DNN、RNN进行特征转换的尝试，最少能利用5句话进行训练，demo效果一般。链接如下：
  - 微软：DNN VC
  - 香港科技大学：BLSTM VC
  - 印度OHSU：Joint AE VC
  - 日本东京大学：GMM VC
  - 法国tut：基于DKPL回归
  - Voice Morphing：Voice Morphing
- TTS方法较VC方法效果更好，百度和微软使用，如百度的个性化TTS，没有找到相关产品链接。学术界的demo链接如下：
  - 日本Kobayashi 实验室：Speaker-Independent HMM-Based Voice Conversion
  - 爱丁堡大学：Listening test materials for “A study of speaker adaptation for DNN-based speech synthesis”
  - TOKUDA and NANKAKU LABORATORY
关键点
- 声音编码解码器：AHOcoder，STRAIGHT，HTK，Sphinx，Kaldi
- 时间序列对齐算法：SPTK中dtw，或一些matlab代码
- 参数生成算法：考虑global variance的parameter generation algorithm，参考hts_engine源码
- 模型：GMM，FFNN，SJAE，RNN(BLSTM)
- TTS：HMM+神经网络
- adaption算法：参考hts_engine源码，或一些基于DNN的adaption算法
- 。。。等
GMM方法介绍
- 对cmu语料库，使用wav2raw将16khz的raw文件转换为wav文件，再使用sox命令将wav文件转换为AHOcoder所要求的格式的文件
- 用./ahocoder .wav .lf0 .mgc生成lf0和mgc文件，可分别选5句话作为train，其余作为test
- 使用adaption.sh对lf0进行adaption转换，首先要选好train和test的list，之后进行adaption
- 对mgc进行dtw
- 生成gmm模型function [G,P]=gmmtrain(X,m)
- 进行blfwas转换训练function [alfa,R]=blfwastrain(X,Y,P)
- 进行测试：
  - 对向量分类function [P,L]=gmmprobs(G,X)
  - 进行blf转换，并把c0加进去，function Y=blfwasconv(X,alfa,R,P))