NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

浙江大学与 SEA AI Lab 在 NeurIPS 2022 上提出 GenerSpeech 模型,解决域外风格迁移的性能损失问题,通过解耦表征学习实现对未见语者、情感、韵律的泛化零样本迁移,提升风格相似度和语音质量。
摘要由CSDN通过智能技术生成

202d2a6c9085cbc12dc7dfa0fc48b981.gif

语音合成旨在根据文本合成特定说话人的语音。先进语音合成模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。个性化语音生成需求的增加对语音合成模型提出了挑战,尤其是在域外(OOD; Out-Of-Distribution)的训练未见场景中。

与通常可控的语音合成不同,域外文本到语音的风格转换旨在迁移域外参考样本(Custom Reference)的声学风格(例如,音色、情感和韵律等),进而合成高质量、高相似度语音,主要受到两个方面的挑战:

1. 风格建模和转换:高表现力语音具有高动态范围,通常难以控制和转换。许多合成模型只学到了输入数据的平均分布,并且缺乏细粒度风格建模能力;

2. 模型泛化:当预测时参考样本的声学风格分布与训练数据存在差异时,合成语音的质量和相似性往往会显著降低。

14bbe268937ae1b89f3fea8a039e9802.png

论文标题:

GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

论文链接:

https://arxiv.org/abs/2205.07211

代码链接:

https://github.com/Rongjiehuang/GenerSpeech

在今年的人工智能顶级会议 NeurIPS 2022 上,浙江大学与 SEA AI Lab 提出了全新的可建模未见风格(音色、情感和韵律)的可泛化语音合成模型 GenerSpeech。针对域外风格迁移的性能损失问题,提出了基于解耦表征学习的可泛化文本编码器和多层级风格编码器,实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模,在风格相似度上提升 1 倍偏好,解决高质量、可控性、可泛化的跨模态序列映射问题。

c77343b1981648b17523b9348f798311.png

研究背景

可泛化语音合成的旨在生成域外风格(音色、情感和韵律)的语音,面临以下挑战:1)高表现力语音中的动态风格特征难以建模;2)模型应足够鲁棒以泛化于音色、情感和韵律未见的域外语音。

研究人员提出了几种建模和传递风格属

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值