IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY ADDING TEXT-SUPERVISION

最新推荐文章于 2023-08-08 11:19:12 发布

林林宋

最新推荐文章于 2023-08-08 11:19:12 发布

阅读量327

点赞数

分类专栏： paper笔记

本文链接：https://blog.csdn.net/qq_40168949/article/details/96644098

版权

paper笔记专栏收录该内容

162 篇文章 23 订阅

订阅专栏

作者：zhang-jingxuan
单位：中科大
会议：2018 icassp

abstract:

本文提出用平行数据中的文本标注改善seq2seq vc的性能。首先：设计多任务的学习机制，在seq2seq中间层加辅助分类器，并且预测语言标签（次级任务）。其次：利用文本对齐的数据增强方法对模型训练生成额外的平行序列。
实验结果表明：带有语言标签的多任务学习对于减少vc seq2seq错误率非常有效。数据增强的方法在只有50-100句训练数据可用时进一步增强vc的性能。

1. introduction

作者之前的SCENT工作提出encoder-decoder based on attention的seq2seq的vc解决方案，相对于GMM和DNN-based的方法取得更好的自然度和相似度，但是存在转换的语音错误的发音、重复音素和跳音素的情况。（个人假设是分的单位不够细）
因为在VC任务中，可以从平行数据中得到对应的文本，因此想到把文本监督加进来改善性能。首先：设计一个multi-task learing structure，在encoder的输出和decoder输入之间加辅助分类器，预测hidden vector的语言标签，用于减少转换中错误发音的问题。因此，中间层被次级任务正则处理，使得它更加与语言相关。其次：利用文本对齐的信息提出了数据增广的办法，之前的seq2seq是将整个句子作为一个序列用于训练，本文利用文本中对齐的点得到额外的平行句子的碎片，用于增加模型的泛化性。

2. Previous Work

2.1. related work

文本信息用在vc任务中之前就有研究，用于限制声学特征对齐。【17】中音素信息被用于决策树。【9】提出一个音素先验的LSTM-RNN模型，mono-phone和谱参数都作为模型输入。和之前的研究相比，我们只在模型训练的时候用到text transcription,转换的时候不需要。
multi-task learning被成功的用于语音识别，语音合成和NLP。在基于DNN的语音合成中，预测目标说话人的perceptual representation 的次级任务，用于提高合成语音的主观质量。本文的次级任务是想要让隐层表示更加语言相关。
图像任务中，图片裁剪是很常用的数据增广方式，因此在语音中，我们利用文本标注将平行的语音进行切分，以便更好的利用平行句子中的对齐信息，同时避免seq2seq模型的过拟合。

2.2. Sequence-to-sequence voice conversion

在这里插入图片描述

3. PROPOSEDMETHODS

首先从文本转录中拿到像音素类别这样的语言标签，然后在数据准备阶段分别把他们和source/target对齐。可以通过人工标注或者HMM这样自动的方法做对齐。两种方法都用文本监督提升了seq2seq VC的性能。

3.1. Multi-task learning with linguistic labels

在预测target speaker声学特征的同时，还有一个子任务是从模型的中间层预测语言标签。如图1所示，两个辅助分类器加在encoder的输出和decoder的输入之间。对于每个分类器，输入hidden representation,经过drop out layer(为了增加泛化性？？），然后通过softmax层投影到输出（和语言标签数量一致）上。分类器的目标是当前隐层对于encoder和decoder分别应该对应的语言标签。分类器的CE loss被加权到模型的mel谱loss上。
通过文本的强监督，分类器可以改善任务的性能。直觉感受，分类器可以引导模型生成更加文本相关的隐层表示。在encoder和decoder部分加的分类器也可以帮助attention module预测正确的对齐。而且分类器只在训练的时候用，conversion的时候丢弃，因此conversion时候不需要额外的输入。

3.2. Data-augmentation by text alignment

本文中，‘alignment point’定义为一对平行句子中常见的静音片段。图2给了一个例子说明，parallel fragment指的是从starting 和ending point中挑选的有相同内容的片段。把alignment point定义为静音的原因是尽可能减少周围内容的影响。对于一对平行句子，如果有N个点是可以对齐的，那么就可以有 $C_N^2$ 种挑选平行片段的可能。
在这里插入图片描述

4. EXPERIMENTS

4.1. Experimental conditions

在这里插入图片描述
首先用a rule-based grapheme-to-phoneme model 将文本标注转成带调的音素序列，然后用HMM将带调的音素和speech对齐。
本文主要做了3组对比实验：

seq2seq：baseline是之前的成果【10】
seq2seq-MT :训练阶段加两个额外的分类器预测音素类别，音素和声调的加权量分别是0.1和0.05，然后在验证集上做优化。
seq2seq-MT-DA

4.2. Objective evaluation

用STRAGHT提取converted speech的f0和mel倒谱，然后在测试集上计算梅尔谱失真（MCD）和F0均方差（F0-,MSE）,结果展示在表1中。

林林宋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY ADDING TEXT-SUPERVISION

作者：zhang-jingxuan单位：中科大会议：2018 icasspabstract:本文提出用平行数据中的文本标注改善seq2seq vc的性能。首先：设计多任务的学习机制，在seq2seq中间层加辅助分类器，并且预测语言标签（次级任务）。其次：利用文本对齐的数据增强方法对模型训练生成额外的平行序列。实验结果表明：带有语言标签的多任务学习对于减少vc seq2seq错误率非常有效...
复制链接

扫一扫

专栏目录