- 时间 2016.5.4~2016.7.20
- 成果:
- 基于Voice Conversion的demo:VC demo百度网盘分享
- 基于TTS adaption的demo:TTS adaption demo百度网盘分享
- TTS demo:基于HMM的TTS demo百度网盘分享
- github:
- 方案:
- 基于Voice Conversion 的语音序列转换
- 总体思路
- 总体思路
- 基于TTS的adaption
- 基于Voice Conversion 的语音序列转换
可行性分析
Voice Conversion 方法可以尝试,但效果达不到在工业界上应用的标准,学术界有利用GMM、DNN、RNN进行特征转换的尝试,最少能利用5句话进行训练,demo效果一般。链接如下:
- 微软:DNN VC
- 香港科技大学:BLSTM VC
- 印度OHSU:Joint AE VC
- 日本东京大学:GMM VC
- 法国tut:基于DKPL回归
TTS方法较VC方法效果更好,百度和微软使用,如百度的个性化TTS,没有找到相关产品链接。学术界的demo链接如下:
- 日本Kobayashi 实验室:Speaker-Independent HMM-Based Voice Conversion
- 关键点
- 声音编码解码器:AHOcoder,STRAIGHT,HTK,Sphinx,Kaldi
- 时间序列对齐算法:SPTK中dtw,或一些matlab代码
- 参数生成算法:考虑global variance的parameter generation algorithm,参考hts_engine源码
- 模型:GMM,FFNN,SJAE,RNN(BLSTM)
- TTS:HMM+神经网络
- adaption算法:参考hts_engine源码,或一些基于DNN的adaption算法
- 。。。等
- GMM方法介绍及代码
- 神经网络方法介绍及代码
- 基于HMM的TTS原理,特定人adaption原理及代码
- 相关实验环境搭建
- 相关项目链接
- github
- festival
- HTK
- HTS
- hts_engine
- SPTK
- AHOcoder
- -
- 实验中存在的问题
- GMM的matlab代码跑50句话时自动退出,没跑完
- FFNN中LF0的两种转换方法,一种是依据GV进行adaption,另一种是跟随神经网络进行转换,后者实验中进行normalization和转换时数据异常,考虑是否对-1e+10这样的数据进行处理
- LF0可以进行FFT变换
- 考虑GV和delta constraint的参数生成算法
- 产生delta的准确性:有两种,一种通过SPTK的delta工具,另一种通过hts中代码,实验中使用前一种,没验证其准确性。
- 相关研究主页
个性化语音——总结
最新推荐文章于 2024-05-23 10:58:49 发布