TTS行业调研20221201

微软

相关方向

  • diffusion做双声道音频生成
  • 旋律生成:直接生成/给定歌词生成旋律
  • 歌曲识别:数据增广的方式修改现有说话的风格,减少和歌唱之间的gap

现有技术的改进点

前端

  • Bert改进,使用phn & sup-phn信息,增强TTS context encoder的能力;

声学模型

  • SSIM/laplace mix改进合成语音质量 (renyi也有文章2022ACL,博客也有记录)
  • DelightfulTTS:Blizzard Challenge 2021,基于comformer做的,local&global dependence
    • (1)声学模型生成16k mel, Hifinet-vocoder直接上采样到48k Hz;
    • (2)显式特征(语言id,说话人id,pitch/duration), 隐式特征(utt-level, phn-level的韵律特征)
  • DelightfulTTS2 (2022 interspeech)
    • 联合训练:DelightfulTTS-encoder,VQ-GAN(decoder&vocoder)
    • not mel(损失相位信息),VQ-GAN提取特征

小样本

  • Adaspeech 4: zero-shot TTS

diffusion model

diffusion model的首篇综述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值