Cross-lingual TTS via Domain Adaptation and Perceptual Similarity Regression 论文梳理

最新推荐文章于 2023-05-24 08:00:31 发布

ruclion

最新推荐文章于 2023-05-24 08:00:31 发布

阅读量267

点赞数

分类专栏：研三-语音合成论文文章标签：人工智能

本文链接：https://blog.csdn.net/u013625492/article/details/109336515

版权

研三-语音合成论文专栏收录该内容

157 篇文章 27 订阅

订阅专栏

0. Abstract

我们提出了一种改进跨语言文本到语音合成性能的方法。先前的作品能够通过扬声器编码器对扬声器空间中的扬声器个性进行建模，但是在合成跨语言语音时会降低性能。这是因为由所有发言人嵌入形成的发言人空间完全取决于语言。为了构建独立于语言的说话者空间，我们将跨语言语音合成作为领域自适应问题，并提出一种训练方法，使说话者编码器将不同语言的说话者嵌入到同一空间。此外，为了提高说话者的个性并构建人类可解释的说话者空间，我们提出了一种回归方法来构造与听觉相关的说话者空间。实验结果表明，我们的方法不仅可以提高跨语言和跨语言语音的性能，而且可以找到语言以外的可感知相似说话者

1. Introduction

尽管假定从声学特征中提取的说话人嵌入编码了说话人的一般语音信息，但实际上，不同语言的嵌入通常聚集在不同的簇中，这意味着说话人嵌入取决于语言。在本文中，我们将此问题称为跨语言TTS合成中说话人嵌入的语言相关问题

1-13的引用论文很好, 值得读

最近，Maiti等。 [13]提出了一种半监督算法，该算法可以通过计算双语说话者的源语言和目标语言的说话者嵌入之间的差异，将嵌入的任何源说话者转移到目标说话者空间。与没有转移发言人嵌入效果的基准模型相比，这证明了更好的性能。但是，将这种方法应用于具有多种语言的模型是不切实际的，因为要寻找能够说所有语言的说话者几乎是不可能的

在本文中，我们提出了一种解决语言的方法通过将跨语言的TTS合成作为域适应问题来考虑说话者空间的依赖性。如图1所示，当合成源说话者的目标语言语音时，可以将源说话者的语音信息编码到与语言无关的空间中以辅助合成，从而提高自然性和相似性。我们的想法受到领域对抗神经网络（DANN）的启发[14]，该网络已被证明是一种有效的领域自适应算法。在我们的说话人编码器中添加了对抗损失项，以强制其忽略语言之间的差异。此外，为了提高合成语音的说话人个性并使我们的方法构造的说话人空间与人类感知相关，我们使用说话人间感性相似度评分[15]作为附加损失项

https://aria-k-alethia.github.io/clttsda/

2. Conventional Method

传统方法:

可以假设说话者嵌入仅应编码与语言无关的语音特征，但是通过常规方法生成的说话者嵌入通常根据不同的语言形成不同的簇。这意味着说话人嵌入不仅对通用语音功能进行编码，而且还对与语言有关的功能进行编码，这使得任何源说话人在合成目标语言语音时都嵌入离群值

3. Cross-lingual TTS via Domain Adaptation and Perceptual Similarity

为了解决语言依赖性问题，我们扩展了图2中所示的传统方法的说话人编码器。我们提出了（1）域自适应目标（第3.1节）和（2）说话人空间中的说话人间相似度回归目标（第3.2节）。我们的扬声器编码器的总体架构如图3所示

3.1. The Domain Adaptation Objective

特征提取器的架构基于resCNN [16]，这是一种有效的深度残差卷积神经网络，用于说话人识别任务。我们发现当使用对抗性损失时，resCNN可用于提取与文本无关的功能，而其他简单的体系结构（如长短期记忆（LSTM））无法收敛

TODO有疑问: 说话人和语言id在数据上就是强相关的, 是子集, 怎么可能做到判断出来是谁而判断不出是哪个语言. 难道真的可以去掉那些口音特征? 这么强的吗? 只能说会好些; 结合后面的t-sne图, 感觉也有问题

3.2. The Inter-speaker Similarity Regression Objective

我们的域自适应方法可以比较说话者的相似性，即使他们说不同的语言。但是，不能保证由扬声器编码器产生的扬声器空间与主观扬声器之间的相似性相关，即，具有相似声音的扬声器不一定彼此靠近。因此，为了进一步提高合成语音的说话者个性并构建人可解释的说话者空间（即与人的感知高度相关），我们使用了说话者之间的感知相似度[15]来训练说话者编码器。该分数是通过涉及大量人员评估的众包获得的。要求每个评估者给出两个说话者语音相似度的偏好分数。因此，分数可以代表感知力

在本文中，我们通过结合说话者相似度回归和领域自适应来解决这个问题。说话人相似度回归用于构建人类可解释但特定于语言的说话人空间。同时，域自适应用于匹配这些空间。因此，语言内相似性知识可以容易地传递给跨语言说话者对

sim这部分不太懂

4. Experiments

4.1. Experimental setup

我们研究了英语和日语之间的跨语言TTS合成。我们首先使用LJ语音语料库（英语）[17]和JSUT语料库（日语）[18]来训练跨语言TTS模型，这有利于模型收敛。在此阶段，分别对扬声器编码器和模型的其余部分进行了培训。经过预培训后，我们使用VCTK [19]和JVS [20]语料库中包含的女性演讲者的语言共同培训了所有组件。我们随机选择8位演讲者（4位英语和4位日语）进行看不见的演讲者评估，并将他们从训练集中排除

在所有实验中，我们使用了64维扬声器嵌入，16维语言嵌入。我们将所有说话人嵌入标准化为单位长度，以稳定训练过程。语言分类器是两层的多层感知器。我们发现简单的体系结构更适合于说话者分类器，因此我们直接使用了线性分类器

为了使Tacotron2适应说话人嵌入和语言嵌入，我们进行了以下修改：（1）在文本编码器中将语言嵌入与文本嵌入连接在一起。（2）在注意力模块中，说话人嵌入和语言嵌入被用作附加输入。（3）在解码器中，我们首先使用线性变换将语言嵌入和上下文向量转换为紧凑特征，然后将其与扬声器嵌入连接起来，然后将其馈送到解码器。我们发现这可以避免说话人嵌入和语言嵌入之间的纠缠

4.2. Subjective Evaluation

4.2.1. Naturalness Evaluation

好

4.2.2. Speaker Similarity Evaluation

好

4.3. Speaker Space Evaluation

我们从各个方面评估通过我们的方法生成的扬声器空间。我们首先通过t-SNE算法[24]可视化嵌入和不嵌入域的英语和日语说话者。结果如图4所示。我们可以看到，在基线模型中，英语使用者（圆圈）和日语使用者（十字）可以很容易地通过语言分开。通过使用我们的方法，说话人嵌入混合在一起并形成独立于语言的说话人空间，这意味着我们的方法在遇到多种语言时具有更好的泛化能力