重点 :
- 在SoundStream backbone上实现VC
- 用Soft speech units代替PPG作为VC的输入(来自hubert的latent)
- whitened f0增加稳定性,并减少音色泄漏 (通过句级别的归一化,消除f0和speaker的关联性)
- 只用Soft speech units作为输入也可VC,但情感很平;
- YIN算法提取F0,取不同阙值,没帧得到9个数值(类似于软标签)
- F0在训练和推理,句级别归一化
- 用一个轻量的content encoder来预测hubert并取latent
- learnable pooling 来得到全局speaker emb
流式推理:
- 提f0时,前后各一帧lookahead context window,3帧
- 模型输入s_t, 输出s_t-2;但流式只用到了前面一帧的state;即用s_t-1和s_t预测s_t-2
- 没看懂:为什么不能用s_t预测s_t呢?