个性化语音——总结

  1. 时间 2016.5.4~2016.7.20
  2. 成果:
  3. github:
  4. 方案:
    • 基于Voice Conversion 的语音序列转换
      • 总体思路
        微软VC
    • 基于TTS的adaption
  5. 可行性分析

    • Voice Conversion 方法可以尝试,但效果达不到在工业界上应用的标准,学术界有利用GMM、DNN、RNN进行特征转换的尝试,最少能利用5句话进行训练,demo效果一般。链接如下:

    • TTS方法较VC方法效果更好,百度和微软使用,如百度的个性化TTS,没有找到相关产品链接。学术界的demo链接如下:

  6. 关键点
    • 声音编码解码器:AHOcoder,STRAIGHT,HTK,Sphinx,Kaldi
    • 时间序列对齐算法:SPTK中dtw,或一些matlab代码
    • 参数生成算法:考虑global variance的parameter generation algorithm,参考hts_engine源码
    • 模型:GMM,FFNN,SJAE,RNN(BLSTM)
    • TTS:HMM+神经网络
    • adaption算法:参考hts_engine源码,或一些基于DNN的adaption算法
    • 。。。等
  7. GMM方法介绍及代码
  8. 神经网络方法介绍及代码
  9. 基于HMM的TTS原理,特定人adaption原理及代码
  10. 相关实验环境搭建
  11. 相关项目链接
    • github
    • festival
    • HTK
    • HTS
    • hts_engine
    • SPTK
    • AHOcoder
    • -
  12. 实验中存在的问题
    • GMM的matlab代码跑50句话时自动退出,没跑完
    • FFNN中LF0的两种转换方法,一种是依据GV进行adaption,另一种是跟随神经网络进行转换,后者实验中进行normalization和转换时数据异常,考虑是否对-1e+10这样的数据进行处理
    • LF0可以进行FFT变换
    • 考虑GV和delta constraint的参数生成算法
    • 产生delta的准确性:有两种,一种通过SPTK的delta工具,另一种通过hts中代码,实验中使用前一种,没验证其准确性。
  13. 相关研究主页
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值