语音合成论文优选：Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech

最新推荐文章于 2022-07-08 19:09:14 发布

我叫永强

最新推荐文章于 2022-07-08 19:09:14 发布

阅读量226

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/118526655

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech

本文为Department of Artificial Intelligence, Korea University, Seoul, Korea在2021.06.05更新的文章，本文主要使用增强学习来进行对齐学习，并且设计text-to-waveform的系统，使语音合成的整个流程更加简单，具体文章

https://arxiv.org/pdf/2106.02830.pdf

1 背景

现有tts系统都需要phoneme-to-frame的对齐信息，因此常用的方法是使用attention机制或者使用外部的aligner来提供对齐信息。本文使用增强学习的方法来进行对齐学习，并提出了text-to-waveform的系统，使其合成的语音更加自然。

2 详细设计

本文的整个架构如图1所示，environment即text-to-waveform系统，该部分通过合成waveform从而为aligner提供reward,而aligner接受该reward后采用不同的action来学习phoneme的duration。具体的系统如图2所示。这里不细讲每个系统的网络参数，我想讲一下有意思的对齐学习过程。

首先我们可以看到aligner，图2的a可知。encoder的输出经过duration predictor预测出每个phoneme的duration。对该duration序列根据reward进行修改，其action包括keep和shift，其中keep保存原来的duration不变，shift则对其进行交叉α（该值是超参）的修改，之所以进行交叉正负修改，为了保持总的帧数不变。现在我们如何获得reward，该reward是keep和shift两种操作生成的waveform所对应的feature和ground truth的feature之间的l1 loss，谁小就选择谁。本文的reward设计两类，phoneme-wise和segment-wise。这样不断调整该duration 序列，可以学习到最终的对齐信息。（这个地方很绕，我看了好久才搞明白这里）

3 实验

由table 1和图3所示，使用phoneme-wise(α=2）效果最好，其mos最高。table 2显示本文的text-to-waveform的方案比tacotron2都好。

4 总结

本文使用增强学习的方法来学习对齐信息，并设计了text-to-waveform的合成系统，其效果比taoctron2的效果都好。

我叫永强

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成论文优选：Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech本文为Department of Artificial Intelligence, Korea University, Seoul, Korea在2021.06.05更新
复制链接

扫一扫