StarGANv2-VC

最新推荐文章于 2024-04-19 09:52:07 发布

林林宋

最新推荐文章于 2024-04-19 09:52:07 发布

阅读量1.4k

点赞数

分类专栏： paper笔记文章标签：语音识别深度学习人工智能

原文链接：https://arxiv.org/abs/2107.10394

版权

162 篇文章 23 订阅

订阅专栏

会议：2021 interspeech
作者：Yinghao Aaron Li
单位：Columbia University

StarGAN v2做many-to-many的变声，使用20个英文说话人训练，可以完成any-to-many，cross-lingual， singing voice conversion。
使用style-encoder，可以把plain speech转换成stylistic speech。

变声的技术路线可以分为三类：

Auto-encoder approach：encoder去编码说话人无关的信息，需要设定各种限制移除说话人相关的信息；
GAN-based:使用判别器判断生成的语音和真实目标人的相似度，因为不能保证判别器从real data中学到了合理的信息，因此转换生成的语音可能会有相似度不高、发音错误等问题；
TTS-based：利用文本标签，保证了音色一致度，但是不能适用于没有文本的场景。

本文是基于StarGAN的框架，对比自然度和相似度结果超过了AUTO-VC 和VTN （tts-based)

使用StarGAN v2一样的结构，加入 joint detection and classification (JDC) F0 extraction network保证基频一致性；
在这里插入图片描述
目标函数

VCTK20人的数据，for style JVS dataset（10人，有正常的和假音的句子）；for emotion emotional speech dataset (ESD)，

关注