【VC】END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERANCES

最新推荐文章于 2023-09-10 19:53:23 发布

cxxx17

最新推荐文章于 2023-09-10 19:53:23 发布

阅读量440

点赞数

分类专栏： TTS论文阅读

本文链接：https://blog.csdn.net/weixin_42262721/article/details/127030077

版权

TTS论文阅读专栏收录该内容

26 篇文章 6 订阅

订阅专栏

文章目录

来源：ICASSP 2020
从L2说话人的句子中分别提取语言学信息和说话人表征，然后驱动语音合成模型，从而产生没有口音的说话人特征不变的句子。

1. INTRODUCTION

传统的AC方法是将native说话人转换成non-native target说话人，但是内容和发音不变。因此在推理过程中需要native speaker的句子，也就只能转换有native speaker的句子。本文提出了一种端到端的方法，在转换过程中不需要native- accented utterances，理论上也可以转换任意内容的non-native utterances。本文的方法由4个部分组成：一个speaker encoder，一个seq2seq 多说话人的TTS，一个seq2seq 有口音的ASR，以及一个vocoder。speaker encoder是在说话人识别任务上训练的，得到固定维度的speaker embedding。多说话人TTS基于tacotron架构，将phoneme序列转成mel谱，以speaker embedding为条件。在native数据上训练。有口音的ASR则是在native 和 accent数据上训练的。在转换期间，应用non-native音频经过ASR产生的语言学信息和说话人表示，语言学信息和说话人表示喂给TTS的decoder，从而产生native的音频。声码器最终将mel转成音频。主要的贡献：

在转换过程中不需要ref
基于seq2seq框架，有能力建模韵律特性，听起来更native
不需要平行语料

2. PROPOSED APPROACH

2.1 训练阶段

训练阶段，应用speaker encoder提取speaker信息，实现speaker信息的解耦。根据文本信息和speaker的embedding生成native的音频。 $H^l$ 这里表示的是linguistic information，因为是平行语料，所以上下图中linguistic information是一致的， $L_{TTSE}$ 用于计算两个linguistic information之间的loss。
在这里插入图片描述