-1.0 首先趁着国庆节把9月份的任务完成, 快速整理, 难的或者繁琐的作为10月份任务之一, 但不再拓展, 即使拓展, 也只是先记下来, 后来发现还是太多了, 记下来的在下午去完成, 上午8到12点学习新的.
- 复现两篇论文, 结构实现细节进行说明, 训练步数+batch也标记, 并且以网页形式做出对比, 尤其是口音clone, 模仿着论文分析, 画出表格和图像 (如embedding vec). 代码备份, 报告完成并备份.
- phoneme的放出no-ref-no-vae版本的, 只要中文声音.
- 照着自己琢磨的 "Break it down into text and timbre and accent factors"去实现. 为了实现效果, 需要琢磨几个loss的相对设置, 至少要打印出来看一看, 积累经验. 同时网络超参数尽量用之前实验的. 需要新的数据集, vae支持, 新合成的动态加入策略. 和复现论文结合起来搞一篇论文.
- 更加细致化分析: 设计实验让残留在各部分的不属于该部分的信息暴露出来, 在cs部分, 对于language id在decoder部分的炫技. 比如用vad, 比如用stop token一样的. 当然, 直接加到文本序列, 或者encoder_output也行, 不涉及序列变换.
-1.1 整理interspeech, 至少是ipyb和静北师兄讲的.
-1.1 数据挖掘, 工程化TF2, python细节和算法.
0. 0 尽快对接已有数据, 防止出问题. 可以单独训练, 可以base+X.
0.1英伟达的代码跑出来, 分析各个代码, vocoder在不使用工程技巧的inference时间, 作为baseline. 看是否不用优化就能忍. 要么就简单的分段优化. 看看有没有分布式的可能, 或者加大reduction_factor, 真不行了就都延迟2s.
- T2+GL
- T2+WaveNet (感觉时间上不靠谱)
- T2+WaveRNN (感觉时间上不太靠谱)
- T2 (Nvidia) + WaveGlow
- 梅林, Merlin, spss的, 作为速度以及正确率的backup
- T2+SPTK
- T2+word
- T2+...
1. 自己想的线段树Tacotron-transfermer, 其实和fastspeech很像, 实现它. 处理duration的地方不太优美.
2. 想想怎么提升普通话的丰富的情感. (重点)
3. 新想法, 同位素, 同分异构. 避免某些训练不充分产生的问题.
4. 最后弄一个快的ASR, 搞一个"英特尔版本"的.
5. 迭代的 (递归的) 残差网络, 以及模拟低精度到高精度, 以及模拟数据挖掘中小数位拉出来.
6. 每次改个参数, 改个结构, 就需要全部重头训练. 唱歌.