10月份语音合成任务安排: 商业化的普通话合成 (质量, 速度, 准确度, 韵律)

-1.0 首先趁着国庆节把9月份的任务完成, 快速整理, 难的或者繁琐的作为10月份任务之一, 但不再拓展, 即使拓展, 也只是先记下来, 后来发现还是太多了, 记下来的在下午去完成, 上午8到12点学习新的. 

  • 复现两篇论文, 结构实现细节进行说明, 训练步数+batch也标记, 并且以网页形式做出对比, 尤其是口音clone, 模仿着论文分析, 画出表格和图像 (如embedding vec). 代码备份, 报告完成并备份.
  •  phoneme的放出no-ref-no-vae版本的, 只要中文声音. 
  • 照着自己琢磨的 "Break it down into text and timbre and accent factors"去实现. 为了实现效果, 需要琢磨几个loss的相对设置, 至少要打印出来看一看, 积累经验. 同时网络超参数尽量用之前实验的. 需要新的数据集, vae支持, 新合成的动态加入策略. 和复现论文结合起来搞一篇论文.
  • 更加细致化分析: 设计实验让残留在各部分的不属于该部分的信息暴露出来, 在cs部分, 对于language id在decoder部分的炫技. 比如用vad, 比如用stop token一样的. 当然, 直接加到文本序列, 或者encoder_output也行, 不涉及序列变换.

-1.1 整理interspeech, 至少是ipyb和静北师兄讲的.

-1.1 数据挖掘, 工程化TF2, python细节和算法.

 

0. 0 尽快对接已有数据, 防止出问题. 可以单独训练, 可以base+X.

0.1英伟达的代码跑出来, 分析各个代码, vocoder在不使用工程技巧的inference时间, 作为baseline. 看是否不用优化就能忍. 要么就简单的分段优化.  看看有没有分布式的可能, 或者加大reduction_factor, 真不行了就都延迟2s.

  • T2+GL
  • T2+WaveNet (感觉时间上不靠谱)
  • T2+WaveRNN (感觉时间上不太靠谱)
  • T2 (Nvidia) + WaveGlow
  • 梅林, Merlin, spss的, 作为速度以及正确率的backup
  • T2+SPTK
  • T2+word
  • T2+...

1. 自己想的线段树Tacotron-transfermer, 其实和fastspeech很像, 实现它. 处理duration的地方不太优美.

2. 想想怎么提升普通话的丰富的情感. (重点)

3. 新想法, 同位素, 同分异构. 避免某些训练不充分产生的问题.

4. 最后弄一个快的ASR, 搞一个"英特尔版本"的.

5. 迭代的 (递归的) 残差网络, 以及模拟低精度到高精度, 以及模拟数据挖掘中小数位拉出来.

6. 每次改个参数, 改个结构, 就需要全部重头训练. 唱歌.

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值