Transformer-TTS: Neural Speech Synthesis with Transformer Network阅读笔记

最新推荐文章于 2024-06-08 09:59:31 发布

进击的小杨人

最新推荐文章于 2024-06-08 09:59:31 发布

阅读量2.5k

点赞数 1

分类专栏：语音合成TTS 文章标签： Transformer transformer-TTS attention end2end TTS 语音合成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42600072/article/details/105774218

版权

语音合成TTS 专栏收录该内容

10 篇文章 5 订阅

订阅专栏

5. Transformer-TTS: Neural Speech Synthesis with Transformer Network

文章于2019年1月发表

在这里插入图片描述

Transformer-TTS可以看做Tacotron2+transformer的组合，作者认为优点主要为：

通过移除RNN结构实现并行训练，因为解码器的输入序列的帧可以并行地提供。
第二种是self-attention可以将整个序列的全局上下文映射到每个输入帧中，直接构建远程依赖关系。

主要步骤和改进：

text-to-phoneme，输入为phoneme;
Encoder Pre-net: 有Embedding层和三层卷积层组成；
Scaled Positional Encoding: 增加可训练参数 $α$ ，使之能够自适应地适应编码器和解码器prenets输出的大小；
Transformer Encoder和Decoder，参照[Attention Is All You Need](# 4. Attention Is All You Need);
Decoder Pre-net: 两个全连接层;
保留Stop Token；

相比Tacotron2，训练速度提高三四倍。

MOS值对比：

在这里插入图片描述
欢迎进群交流~

进击的小杨人

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Transformer-TTS: Neural Speech Synthesis with Transformer Network阅读笔记

5. Transformer-TTS: Neural Speech Synthesis with Transformer Network文章于2019年1月发表Transformer-TTS可以看做Tacotron2+transformer的组合，作者认为优点主要为：通过移除RNN结构实现并行训练，因为解码器的输入序列的帧可以并行地提供。第二种是self-attention可以将整个序...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。