语音合成论文优选:Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech

本文为Department of Artificial Intelligence, Korea University, Seoul, Korea在2021.06.05更新的文章,本文主要使用增强学习来进行对齐学习,并且设计text-to-waveform的系统,使语音合成的整个流程更加简单,具体文章

https://arxiv.org/pdf/2106.02830.pdf


1 背景

现有tts系统都需要phoneme-to-frame的对齐信息,因此常用的方法是使用attention机制或者使用外部的aligner来提供对齐信息。本文使用增强学习的方法来进行对齐学习,并提出了text-to-waveform的系统,使其合成的语音更加自然。

2 详细设计

本文的整个架构如图1所示,environment即text-to-waveform系统,该部分通过合成waveform从而为aligner提供reward,而aligner接受该reward后采用不同的action来学习phoneme的duration。具体的系统如图2所示。这里不细讲每个系统的网络参数,我想讲一下有意思的对齐学习过程。

首先我们可以看到aligner,图2的a可知。encoder的输出经过duration predictor预测出每个phoneme的duration。对该duration序列根据reward进行修改,其action包括keep和shift,其中keep保存原来的duration不变,shift则对其进行交叉α(该值是超参)的修改,之所以进行交叉正负修改,为了保持总的帧数不变。现在我们如何获得reward,该reward是keep和shift两种操作生成的waveform所对应的feature和ground truth的feature之间的l1 loss,谁小就选择谁。本文的reward设计两类,phoneme-wise和segment-wise。这样不断调整该duration 序列,可以学习到最终的对齐信息。(这个地方很绕,我看了好久才搞明白这里)

3 实验

由table 1和图3所示,使用phoneme-wise(α=2)效果最好,其mos最高。table 2显示本文的text-to-waveform的方案比tacotron2都好。

4 总结

本文使用增强学习的方法来学习对齐信息,并设计了text-to-waveform的合成系统,其效果比taoctron2的效果都好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值