NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

PaperWeekly

于 2022-12-12 13:20:25 发布

阅读量404

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/128295717

版权

浙江大学与 SEA AI Lab 在 NeurIPS 2022 上提出 GenerSpeech 模型，解决域外风格迁移的性能损失问题，通过解耦表征学习实现对未见语者、情感、韵律的泛化零样本迁移，提升风格相似度和语音质量。

摘要由CSDN通过智能技术生成

语音合成旨在根据文本合成特定说话人的语音。先进语音合成模型展示了强大的生成能力，无论是生成高水平的细节还是其生成的多样性，都让人印象深刻。个性化语音生成需求的增加对语音合成模型提出了挑战，尤其是在域外（OOD; Out-Of-Distribution）的训练未见场景中。

与通常可控的语音合成不同，域外文本到语音的风格转换旨在迁移域外参考样本（Custom Reference）的声学风格（例如，音色、情感和韵律等），进而合成高质量、高相似度语音，主要受到两个方面的挑战：

1. 风格建模和转换：高表现力语音具有高动态范围，通常难以控制和转换。许多合成模型只学到了输入数据的平均分布，并且缺乏细粒度风格建模能力；

2. 模型泛化：当预测时参考样本的声学风格分布与训练数据存在差异时，合成语音的质量和相似性往往会显著降低。

论文标题：

GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

论文链接：

https://arxiv.org/abs/2205.07211

代码链接：

https://github.com/Rongjiehuang/GenerSpeech

在今年的人工智能顶级会议 NeurIPS 2022 上，浙江大学与 SEA AI Lab 提出了全新的可建模未见风格（音色、情感和韵律）的可泛化语音合成模型 GenerSpeech。针对域外风格迁移的性能损失问题，提出了基于解耦表征学习的可泛化文本编码器和多层级风格编码器，实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模，在风格相似度上提升 1 倍偏好，解决高质量、可控性、可泛化的跨模态序列映射问题。

研究背景

可泛化语音合成的旨在生成域外风格（音色、情感和韵律）的语音，面临以下挑战：1）高表现力语音中的动态风格特征难以建模；2）模型应足够鲁棒以泛化于音色、情感和韵律未见的域外语音。

研究人员提出了几种建模和传递风格属

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

语音合成旨在根据文本合成特定说话人的语音。先进语音合成模型展示了强大的生成能力，无论是生成高水平的细节还是其生成的多样性，都让人印象深刻。个性化语音生成需求的增加对语音合成模型提出了挑战，尤其是在域外（OOD; Out-Of-Distribution）的训练未见场景中。与通常可控的语音合成不同，域外文本到语音的风格转换旨在迁移域外参考样本（Custom Reference）的声学风格（例如，音色、...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。