GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

林林宋

已于 2024-05-21 17:31:54 修改

阅读量199

点赞数

文章标签：深度学习

于 2023-08-28 21:14:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40168949/article/details/132546049

版权

文章目录

abstract
背景
GenerSpeech

Rongjie Huang, Yi Ren
NeurIPS 2022

abstract

目标：做out-of-domain （OOD）style transfer(情感、音色、韵律）
两个改进：（1）multi-level style adaptor ：包括global style以及 local style (utterance, phoneme, and word-level) ；(2) content adaptor with Mix-Style Layer Normalization：用以消除输入文本特征中的风格信息，改善模型泛化能力；

背景

Meta-StyleSpeech，SC-GlowTTS，Styler: Style factor modeling with rapidity and robustness via speech decomposition for expressive and controllable neural text to speech.
OOD的风格迁移，尤其是zero-shot的，都有先验的假设新的目标风格对于base model是可迁移的，但实际上，新的目标风格可能不同于base model中任意一种数据分布，这就要求：the model can be invariant to domain shift given unseen data. 从图像上借鉴一些方法。

GenerSpeech

问题定义：transfer of out-of-domain custom voice.
分析：想要做风格迁移，首先要划分好哪些是风格先管的特征，哪些是风格无关的特征
- style-agnostic (linguistic content)
- style-specific (e.g., speaker identity, emotion, and prosody)

Mix-Style Layer Normalization—去除文本中的风格信息

在这里插入图片描述

常规condition layer norm的基础上，将说话人相关的向量打散加入layer norm的系数中；

Multi-level Style adaptor

在这里插入图片描述

Global Representation

从wav2vec2.0 中提取，
wav2vec训练的loss是mask挖空对比学习之类，得到的模型浅层是比较全局的信息如音色之类，深层的是内容相关的信息。这种可以作为ASR的前置特征提取；audio token训练的loss是重建，所以包含了重建语音所需的所有信息，可用于TTS离散化

Local Representation

frame/phn/word level prosody embedding：按照边界进行conv pooling，然后加VQ量化，过滤韵律无关的信息；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

目标：做out-of-domain （OOD）style transfer(情感、音色、韵律）两个改进：（1）multi-level style adaptor ：包括global style以及 local style (utterance, phoneme, and word-level)；(2) content adaptor with Mix-Style Layer Normalization：用以消除输入文本特征中的风格信息，改善模型泛化能力；
复制链接

扫一扫

林林宋 CSDN认证博客专家 CSDN认证企业博客

码龄7年

193: 原创

1万+: 周排名

6267: 总排名

37万+: 访问

: 等级

5365: 积分

263: 粉丝

292: 获赞

73: 评论

853: 收藏

私信

关注

分类专栏

最新评论

mega-TTS 1&2
学习小呆呱: 我发现作者在ICLR的版本和arxiv上的有些许差别，但是ICLR给出了更多的实现细节。
mega-TTS 1&2
林林宋: 就是这几个模块都是conv的结构
mega-TTS 1&2
林林宋: 你是这位好人吗
mega-TTS 1&2
utopiaboy: 有位好人进行了非官方实现: https://github.com/LSimon95/megatts2, 请问您可以参与吗?
风格迁移adaIN 和DiT的adaLN
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。