李宏毅《DLHLP》学习笔记7 - Voice Conversion

本文介绍了李宏毅《DLHLP》课程中关于语音转换的内容,主要涉及语音转换的分类,尤其是unparallel data的处理。重点讲解了Feature Disentangle技术,包括Speaker Encoder和Content Encoder的设计,以及CycleGAN、StarGAN和Blow等方法在语音转换中的应用。内容涵盖了encoder-decoder架构、instance normalization、AdaIN等关键概念,并讨论了解决训练与使用阶段声音源不一致问题的策略。
摘要由CSDN通过智能技术生成

视频链接:https://www.youtube.com/watch?v=Jj6blc8UijY&list=PLJV_el3uVTsO07RpBYFsXg-bN5Lu0nhdG&index=9&ab_channel=Hung-yiLee
课件链接:https://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/Voice%20Conversion%20(v3).pdf

1. 语音转换分类

语音转换的用处很多,如合成其他人的声音、合成不同情绪的声音等。本节介绍的技术都是从acoustic features到acoustic features,并不是生成真实可以听的语音信号。因为从acoustic features到wave之间,还有一个vocoder的工作,这个不在本文中介绍。

我们按图的方式进行分类,第一类是parallel data,这种事对于同一句话,有两个不同人的声音数据,这种数据是很匮乏的;第二类是unparallel data,这就不需要前面的那种成对的声音数据了。思路也是借鉴与图像的风格迁移技术。
在这里插入图片描述

2. Feature Disentangle

在unparallel data中,第一种技术是feature disentangle。其思想是使用两个encoder,将声音讯号中的内容信息与声纹信息区分开。
在这里插入图片描述
下图是将原始的acoustic features经过两个encoder,分别提取出语音内容的embedding和speaker音色的embedding,然后,再将这两个embedding拼接起来,通过decoder再解码为acoustic features。
在这里插入图片描述
当有这样的content encoder, speaker encoder和decoder以后,就可以从speaker A的acoustic features中抽取content信息,从speaker B的acoustic features中抽取音色信息,再将两者拼接在一起,通过decoder生成speaker B的说话内容。
在这里插入图片描述
那么,如何做到让一个encoder用于处理content,另一个encoder用于处理音色呢?
在这里插入图片描述

2.1 Speaker Encoder

我们先从解决speaker encoder的问题开始,最简单的一种方案:使用one-hot取代speaker encoder,这样,我们就是在知道speaker encoder的前提下,去训练content encoder和decoder了。
在这里插入图片描述
当我们训练好content encoder和decoder以后,再使用Voice Conversion,就是简单地替换不同的speaker encoder了。当然,这里是存在一个局限的:我们可以合成的声音只能是明确已知的,也就是在one-hot中编码的。
在这里插入图片描述
另外,我们也可以采用预先训练模型的方式,提前训练好相应的encoder。

先来看看speaker encoder,我们可以使用各种已经公开的声纹模型,如:i-vector, d-vector, x-vectoer等。用这些声纹模型生成相应的speaker embedding,代替上面的one-hot,这样,或许可以合成出不再训练集中的声音。
在这里插入图片描述

2.2 Content Encoder

上面说过了speaker encoder,我们再看看content encoder。
我们可以考虑使用语音识别的模型当作content encoder,因为语音识别本身就是与speaker没有关系的。但是,语音识别模型会存在一个问题,就是输出是文字,而不是embedding。那么,我们该怎么办呢?
在介绍HMM的时候,我们说到HMM可以接DNN。在上图的右上角,DNN的输入是acoustic features,输出是属于每个status的概率,这样的话,我们就可以直接使用这个DNN来作为content encoder。

另外一种思路是使用GAN的方法,我们引入一个speaker classifier,用于识别content encoder输出的embedding是否包含speaker的特征。content encoder和speaker classifier交替进行训练。
在这里插入图片描述

2.3 架构设计

下面的技术也是借鉴与image style transformation的。
通过在content encoder中增加instance normalization以后,就可以去掉speaker 的信息了。
在这里插入图片描述
那么,为什么instance normalization可以去掉speaker的信息呢?

我们先以LAS中CNN版本的Encoder为例,看看Instance Normalization是如何工作的。每一个channel就是一种filter处理以后的输出,Instance normalization的作用就是在这一个channel上,计算出均值和方差,做normalize的操作。这样,经过instance normalization以后,每一个维度的均值都是0,方差都是1。
我们可以将不同的filter看作是抽取声音信号中的某种特征是否存在,如:是否是女性的声音或者是男性的声音。在没有经过instance normalization之前,某些channel是能够表现出不一样的性质的。但是,经过instance normalization以后,输出的都是类似的(均值为0,方差为1),这样,就将speaker的信息去掉了。
在这里插入图片描述
接下来,我们需要将speaker encoder的输出,加到decoder里,而且是只作用于speaker的特性上,使用的方法是AdaIN。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值