IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY ADDING TEXT-SUPERVISION

作者:zhang-jingxuan
单位:中科大
会议:2018 icassp

abstract:

本文提出用平行数据中的文本标注改善seq2seq vc的性能。首先:设计多任务的学习机制,在seq2seq中间层加辅助分类器,并且预测语言标签(次级任务)。其次:利用文本对齐的数据增强方法对模型训练生成额外的平行序列。
实验结果表明:带有语言标签的多任务学习对于减少vc seq2seq错误率非常有效。数据增强的方法在只有50-100句训练数据可用时进一步增强vc的性能。

1. introduction

作者之前的SCENT工作提出encoder-decoder based on attention的seq2seq的vc解决方案,相对于GMM和DNN-based的方法取得更好的自然度和相似度,但是存在转换的语音错误的发音、重复音素和跳音素的情况。(个人假设是分的单位不够细)
因为在VC任务中,可以从平行数据中得到对应的文本,因此想到把文本监督加进来改善性能。首先:设计一个multi-task learing structure,在encoder的输出和decoder输入之间加辅助分类器,预测hidden vector的语言标签,用于减少转换中错误发音的问题。因此,中间层被次级任务正则处理,使得它更加与语言相关。其次:利用文本对齐的信息提出了数据增广的办法,之前的seq2seq是将整个句子作为一个序列用于训练,本文利用文本中对齐的点得到额外的平行句子的碎片,用于增加模型的泛化性。

2. Previous Work
2.1. related work

 文本信息用在vc任务中之前就有研究,用于限制声学特征对齐。【17】中音素信息被用于决策树。【9】提出一个音素先验的LSTM-RNN模型,mono-phone和谱参数都作为模型输入。和之前的研究相比,我们只在模型训练的时候用到text transcription,转换的时候不需要。
 multi-task learning被成功的用于语音识别,语音合成和NLP。在基于DNN的语音合成中,预测目标说话人的perceptual representation 的次级任务,用于提高合成语音的主观质量。本文的次级任务是想要让隐层表示更加语言相关。
 图像任务中,图片裁剪是很常用的数据增广方式,因此在语音中,我们利用文本标注将平行的语音进行切分,以便更好的利用平行句子中的对齐信息,同时避免seq2seq模型的过拟合。

2.2. Sequence-to-sequence voice conversion

在这里插入图片描述

3. PROPOSEDMETHODS

首先从文本转录中拿到像音素类别这样的语言标签,然后在数据准备阶段分别把他们和source/target对齐。可以通过人工标注或者HMM这样自动的方法做对齐。两种方法都用文本监督提升了seq2seq VC的性能。

3.1. Multi-task learning with linguistic labels

 在预测target speaker声学特征的同时,还有一个子任务是从模型的中间层预测语言标签。如图1所示,两个辅助分类器加在encoder的输出和decoder的输入之间。对于每个分类器,输入hidden representation,经过drop out layer(为了增加泛化性??),然后通过softmax层投影到输出(和语言标签数量一致)上。分类器的目标是当前隐层对于encoder和decoder分别应该对应的语言标签。分类器的CE loss被加权到模型的mel谱loss上。
 通过文本的强监督,分类器可以改善任务的性能。直觉感受,分类器可以引导模型生成更加文本相关的隐层表示。在encoder和decoder部分加的分类器也可以帮助attention module预测正确的对齐。而且分类器只在训练的时候用,conversion的时候丢弃,因此conversion时候不需要额外的输入。

3.2. Data-augmentation by text alignment

本文中,‘alignment point’定义为一对平行句子中常见的静音片段。图2给了一个例子说明,parallel fragment指的是从starting 和ending point中挑选的有相同内容的片段。把alignment point定义为静音的原因是尽可能减少周围内容的影响。对于一对平行句子,如果有N个点是可以对齐的,那么就可以有 C N 2 C_N^2 CN2种挑选平行片段的可能。
在这里插入图片描述

4. EXPERIMENTS
4.1. Experimental conditions

在这里插入图片描述
首先用a rule-based grapheme-to-phoneme model 将文本标注转成带调的音素序列,然后用HMM将带调的音素和speech对齐。
本文主要做了3组对比实验:

  1. seq2seq:baseline是之前的成果【10】
  2. seq2seq-MT :训练阶段加两个额外的分类器预测音素类别,音素和声调的加权量分别是0.1和0.05,然后在验证集上做优化。
  3. seq2seq-MT-DA
4.2. Objective evaluation

用STRAGHT提取converted speech的f0和mel倒谱,然后在测试集上计算梅尔谱失真(MCD)和F0均方差(F0-,MSE),结果展示在表1中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 提升单目深度估计方法来改进海洋透视。 海洋透视是指由于海洋介质的光学特性,人眼在水下观察物体时出现的模糊和失真现象。为了改善海洋透视,可以利用单目深度估计方法。 单目深度估计是借助计算机视觉技术来估计图像中每个像素点与相机的距离。在传统的单目深度估计方法中,主要依赖于图像中的几何和纹理信息来推断深度。然而,在海洋环境中,由于光线的折射和散射,图像中的几何和纹理信息丧失较多,导致传统方法的准确性下降。 为了克服这个问题,可以通过改进单目深度估计方法来提高海洋透视的效果。一种方法是利用深度学习技术,通过训练神经网络来学习从输入图像中预测深度的映射关系。可以使用已标注的水下图像数据集进行监督学习,使网络能够学习到更准确的深度估计模型。另外,还可以对网络进行迁移学习,使用在陆地环境下预训练的模型,在海洋环境中进行微调,以适应海洋透视的特殊情况。 另一个改进单目深度估计方法的途径是改进特征提取和匹配算法。可以通过使用更好的特征描述子和特征匹配算法,提高单目深度估计的稳定性和准确性。例如,可以使用基于学习的描述子,如深度卷积神经网络提取图像特征,再通过优化的匹配算法实现更准确的深度估计。 总之,通过利用深度学习和改进特征提取与匹配算法,可以显著提高单目深度估计方法在海洋透视上的效果。这将有助于提高水下图像的质量和可视性,在海洋环境下进行相关应用和研究。 ### 回答2: 提升单目深度估计方法以改善水下透视。水下透视是指我们在水下看到的物体变得模糊和失真的现象。为了解决这个问题,研究人员一直在探索使用单目深度估计方法来改善水下透视。 单目深度估计是通过使用单个摄像机来估计图像中物体的距离和深度。在水下,由于水的折射效应,光线会发生折射,导致图像失真。因此,传统的单目深度估计方法往往无法准确估计水下的物体距离和深度。 为了解决这个问题,研究人员提出了一些改进的单目深度估计方法。这些方法包括使用水下场景中的先验知识和模型,从而更好地估计水下物体的深度。例如,可以通过水下传感器捕获的信息来构建水下场景模型,并在深度估计过程中结合使用。此外,还可以利用水下图像的颜色和纹理信息,通过神经网络和机器学习方法进行深度估计。 这些改进的单目深度估计方法的应用可以在水下摄影、水下导航和水下探测等领域中发挥重要作用。例如,在水下摄影中,利用改进的深度估计方法可以提高图像的清晰度和质量,使得拍摄的照片更加真实和可视化。在水下导航和探测中,使用改进的单目深度估计方法可以提供更准确的水下环境信息,从而帮助人们更好地识别、定位和探测水下物体。 总之,改进的单目深度估计方法可以有效地改善水下透视问题,并在水下领域的各个应用中发挥重要作用。随着技术的不断发展,相信这些方法将进一步提升水下图像和数据的质量和可用性。 ### 回答3: 提升海洋透视图像的质量可以通过单目深度估计方法来实现。海洋透视图像通常受到水下湍流、波浪和光线散射等因素的影响,导致图像质量下降。而单目深度估计方法可以通过分析图像中的视差信息来估计场景中的深度信息。 单目深度估计方法有多种实现方式,其中一种常用的方法是基于卷积神经网络(CNN)。该方法通过训练一个深度估计网络,从输入图像中直接预测每个像素的深度信息。训练过程使用带有深度标签的真实图像和对应的深度地图进行,可以通过最小化预测深度与真实深度之间的差异来优化网络参数。 通过使用单目深度估计方法,可以从原始的海洋透视图像中获取更准确和清晰的深度信息。这将有助于改善海洋透视图像的视觉效果和质量。准确的深度信息可以用于场景还原、物体分割和虚实混合等应用中。此外,通过深度估计,还可以对图像进行后续处理,如去除湍流和波浪的影响,进一步提高视觉效果。 总而言之,使用单目深度估计方法可以有效地改善海洋透视图像的质量。这一方法通过分析图像中的视差信息来预测深度信息,从而提供更准确和清晰的深度信息。这将有助于改善海洋透视图像的视觉效果和质量,并为进一步的图像处理提供基础。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值