DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS阅读笔记

DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS

文章于2019年9月发表

在这里插入图片描述

将DurIAN与Tacotron1对比,主要是放弃使用attention结构,使用一个单独的模型来预测alignment,从而来避免合成中出现的跳词重复等问题,DurIAN相当于一个去除Attention的Tacotron1,主要差异如下:

  1. Encoder: 输入phoneme, phoneme embeddings;
  2. Skip State: DurIAN为了编码不同级别的韵律结构,在输入音素之间插入代表不同级别韵律边界的特殊符号, 由于编码器和解码器状态之间的对齐取决于持续时间模型,并且由于韵律边界在物理上对应于时间点而不是持续时间,因此Skip State将与韵律边界关联的隐藏状态从CBHG模型的输出中排除,但相关信息已经被编码进去(复现代码中待实现);

在这里插入图片描述

  1. Alignment: 为了避免某些单词在生成的语音中会被跳过或重复等问题,将attention mechanism替换为alignment model,达到帧水平的强制对齐。DurIAN使用Forced-alignment工具作为alignment的来源;(这部分可以同步参考fastspeech)
  2. Duration Predictor: 三层包含512个单元的双向LSTM层;
  3. Style Code: 使用不同情感标签的数据集,DurIAN进行了监督的情感学习,可以细粒度调整合成语音的情感(待合成该品质声音后的研究方向)。

在这里插入图片描述

  1. Vocoder: Multi-band WaveRNN。

细节:mel_loss和mel_postnet_loss都采用l1_loss;Duration predictor模型采用l2_loss,模型仅在inference时使用,training阶段使用真实duration target,且DurIAN模型和Duration predictor模型分开单独训练。

欢迎进群交流~

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值