ICASSP2020中语音合成部分论文阅读(未完待续)

ICASSP2020在5月份已经结束,拿到论文集后,慢慢花时间看一看同行的成果和进展,也算是汲取一点新鲜养分吧。
简短介绍的同时也会附上自己粗浅鄙陋的想法。谬误良多,不吝指教。

一. 综述

       首先附上中科大凌震华老师关于这部分内容的综述。
在这里插入图片描述

       可以看到,大部分论文是集中在声学模型方面的,声码器也有几篇。
在这里插入图片描述

       论文针对的声学模型方面的问题主要表现在稳定性/韵律与表现力/个性化/多语种几个方面,这也是我们工业界应用语音合成,实际面临的主要问题。

       下面来看看具体的论文内容。

二. 声学模型-稳定性

1. 《Focusing on Attention: Prosody Transfer and Adaptative Optimization Strategy for Multi-Speaker End-to-End Speech Synthesis》

在这里插入图片描述
       论文的主要内容就体现在上面这幅架构图中。包括两个方面,一是带反馈机制的时长控制器用于鲁棒的注意力机制,二是针对不匹配<语音,文本>训练样本的自适应优化策略。

       论文认为TTS任务可能出现一些<语音,文本>数据不完全匹配的情况,单调注意力机制会有对齐问题,所以使用神经网络作为时长控制器,输出注意力机制当前关注音素向前/向后/不动的概率,结合利用Location-sensitive-attention算出的原始权重,算出新的注意力权重。时长控制器的输入包括韵律嵌入,其和说话人嵌入相同的方法得到。时长控制器的输入还包括时长反馈变量。
       自适应优化策略则是针对样本对齐概率,计算样本匹配度,匹配度较低则认为样本标注有问题,所以给定更低的学习率。

       个人感受是,训练样本不匹配的情况实在不多,单调注意力机制在日常应用中效果很不错。韵律嵌入的加入和相关使用情况也是不太明确,个人觉得单纯看韵律迁移还是谷歌和百度的几篇论文讲的更好。学习率的自适应调整实际效果存疑,毕竟我们平时训练模型一开始都是会给定较高的学习率,而按论文做法,训练开始阶段,对齐效果很差,学习率会给的较低。

三. 声学模型-个性化

1. 《Semi-Supervised Speaker Adaptation for End-to-End Speech Synthesis with Pretrained Models》

       这篇论文没有一点新意,就是将少量的语音数据通过ASR识别出文本,再将<语音,文本>在预训练TTS模型上进行微调。(大家不都是这样做的嘛)。结论就是只有语音数据,通过该方式得到的模型,与成对<语音,文本>数据直接微调得到的TTS模型效果接近,比只有一半数量成对数据的效果要好,比多人预训练模型上使用成对数据微调效果也要好。(比多人模型效果好,这点也和平时的经验不一致吧)。

2. 《Zero-Shot Multi-Speaker Text-To-Speech with State-of-the-art Neural Speaker Embeddings》

       这篇论文的方法结构基本沿用了谷歌《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》等论文的思想,通过speaker encoder模块预测出的speaker embedding提供给TTS使用,以此实现zero-shot。论文主要的贡献在于对于某些模块的不同实现方法的效果进行了对比。系统结构如下图。
在这里插入图片描述

       论文用了一半的篇幅介绍了说话人验证,也就是speaker encoder模块,比较了两种方法,x-vector 和 LDE embedding。整体LDE embedding方法在说话人识别结果和语音合成效果两个方面都更好。对于speaker embedding插入TTS模型的位置,prenet+attention位置组合在合成语音相似度方面取得了最好结果。此外,基于性别相关基础模型做自适应相比性别无关基础模型要略好,而训练集内说话人做自适应相比集外说话人效果要好很多,即TTS模型对于集内说话人仍然是过拟合的。

3. 《Speaker Adaption Of A Multilingual Acoustic Model For Cross-Language Synthesis》

       这篇论文也没有提出新的思路去做跨语言的个性化。在传统语音合成系统上,使用个性化数据微调基础多说话人多语言声学模型。网络的输入除了语言特征,还有说话人嵌入和语言编码。该方法在仅有目标说话人一种语言数据的情况下,能够合成该说话人的不同语言的语音。并且实验发现,在加入另一说话人的目标语言数据,和目标说话人的当前语言数据一起做自适应训练,合成的目标说话人目标语言的语音效果要更好。

       但是,方法中存在的问题是,合成时,语言编码需要指定为源语言而不是目标语言,说明没有很好的将说话人和语言编码进行分离,那么和直接去掉语言编码输入效果应该差不多吧。

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值