个性化语音——总结

最新推荐文章于 2024-05-23 10:58:49 发布

Yolanda2016

最新推荐文章于 2024-05-23 10:58:49 发布

阅读量1k

点赞数

分类专栏：语音文章标签：个性化语音

本文链接：https://blog.csdn.net/Yolanda2016/article/details/51967638

版权

语音专栏收录该内容

1 篇文章 0 订阅

订阅专栏

时间 2016.5.4~2016.7.20
成果：
- 基于Voice Conversion的demo：VC demo百度网盘分享
- 基于TTS adaption的demo：TTS adaption demo百度网盘分享
- TTS demo：基于HMM的TTS demo百度网盘分享
github：
方案：
- 基于Voice Conversion 的语音序列转换
  - 总体思路
- 基于TTS的adaption
可行性分析
- Voice Conversion 方法可以尝试，但效果达不到在工业界上应用的标准，学术界有利用GMM、DNN、RNN进行特征转换的尝试，最少能利用5句话进行训练，demo效果一般。链接如下：
  - 微软：DNN VC
  - 香港科技大学：BLSTM VC
  - 印度OHSU：Joint AE VC
  - 日本东京大学：GMM VC
  - 法国tut：基于DKPL回归
- TTS方法较VC方法效果更好，百度和微软使用，如百度的个性化TTS，没有找到相关产品链接。学术界的demo链接如下：
  - 日本Kobayashi 实验室：Speaker-Independent HMM-Based Voice Conversion
关键点
- 声音编码解码器：AHOcoder，STRAIGHT，HTK，Sphinx，Kaldi
- 时间序列对齐算法：SPTK中dtw，或一些matlab代码
- 参数生成算法：考虑global variance的parameter generation algorithm，参考hts_engine源码
- 模型：GMM，FFNN，SJAE，RNN(BLSTM)
- TTS：HMM+神经网络
- adaption算法：参考hts_engine源码，或一些基于DNN的adaption算法
- 。。。等
GMM方法介绍及代码
神经网络方法介绍及代码
基于HMM的TTS原理，特定人adaption原理及代码
相关实验环境搭建
相关项目链接
- github
- festival
- HTK
- HTS
- hts_engine
- SPTK
- AHOcoder
- -
实验中存在的问题
- GMM的matlab代码跑50句话时自动退出，没跑完
- FFNN中LF0的两种转换方法，一种是依据GV进行adaption，另一种是跟随神经网络进行转换，后者实验中进行normalization和转换时数据异常，考虑是否对-1e+10这样的数据进行处理
- LF0可以进行FFT变换
- 考虑GV和delta constraint的参数生成算法
- 产生delta的准确性：有两种，一种通过SPTK的delta工具，另一种通过hts中代码，实验中使用前一种，没验证其准确性。
相关研究主页