2021-03-31

最新推荐文章于 2023-06-09 19:15:24 发布

GFward

最新推荐文章于 2023-06-09 19:15:24 发布

阅读量163

点赞数

分类专栏：语音合成文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_71560364126/article/details/115343961

版权

语音合成专栏收录该内容

16 篇文章 3 订阅

订阅专栏

文章目录

概述
系统概述
结果分析：

概述

本文是一片低资源合成的文章，主要关注两方面，一方面关注如何针对每个新的说话人使用尽量少的的数据实现相同的合成效果；一方面关注如何针对每个说话人占用更少的内存资源（模型参数）。

针对上述问题，文章总结了目前的custom voice系统面临的挑战有两个：

新的声音与训练集声音不一样
保持音质的同事降低模型参数数量

针对上述挑战，文章提出了两方面的解决方法：

分别使用两个encoder建模句子级别和音素级别的声学参数
在decoder部分引入条件层正则化，新的数据来了以后仅finetune一个speaker embedding以及条件层正则化的两个系数矩阵一共三个参数，以便在参数量和声音质量上求得平衡。

通过上述方法，该模型仅使用每个说话人20句话（1分钟），每个人占用5K参数就能实现该音色的合成。

系统概述

系统如图所示，系统基于fastspeech实现，从训练到推理一共需要三步，分别是training（绿色）, finetune（红色）， inference（全部）。
在这里插入图片描述

红色部分的具体模块如下：
在这里插入图片描述

pretrain阶段先训练(a)(b)©60k steps，然后用c的输出作为groundtruth, 训练(d)。finetune阶段，只训练speaker embedding，以及正则化层的参数。inference阶段则将上述参数的全集作为推理的依据。

其中正则化层的示意图如下：
在这里插入图片描述

具体算法如下：
在这里插入图片描述

结果分析：

可以看出
可以看出

跨域adaption对合成系统而言仍然具有较大的挑战性。
仅训练speaker embedding效果较差（参数少，难以handle说话人个性化信息），训练decoder参数较多，本系统则获得了二者的平衡

在这里插入图片描述

此外，本文方法学习到的说话人特征分类较为清晰（但不排除短句子或者带情感句子造成的噪声干扰），adaption阶段使用的句子数目也较少（20句左右）：
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-03-31

文章目录概述系统概述结果分析：概述本文是一片低资源合成的文章，主要关注两方面，一方面关注如何针对每个新的说话人使用尽量少的的数据实现相同的合成效果；一方面关注如何针对每个说话人占用更少的内存资源（模型参数）。针对上述问题，文章总结了目前的custom voice系统面临的挑战有两个：新的声音与训练集声音不一样保持音质的同事降低模型参数数量针对上述挑战，文章提出了两方面的解决方法：分别使用两个encoder建模句子级别和音素级别的声学参数在decoder部分引入条件层正则化，新的数据来了
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。