SLT2021: HOW FAR ARE WE FROM ROBUST VOICE CONVERSION: A SURVEY

最新推荐文章于 2024-09-15 17:22:56 发布

ruclion

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量324

点赞数

分类专栏：研三-语音合成论文文章标签：人工智能

本文链接：https://blog.csdn.net/u013625492/article/details/112983074

版权

0. 题目

HOW FAR ARE WE FROM ROBUST VOICE CONVERSION: A SURVEY

一个调查: 我们距离鲁棒性强的音色转换还有多远?

1. 摘要

近年来，在深度学习的帮助下，语音转换技术得到了极大的改进，但是在不同条件下产生自然发声的能力仍然不清楚。在本文中，我们对已知VC模型的鲁棒性进行了深入研究。我们还修改了这些模型，例如替换了说话人嵌入向量编码，以进一步提高其性能。我们发现采样率和音频持续时间极大地影响了语音转换。所有的VC模型对于未见过的说话人, 均表现不好，但是AdaIN-VC相对更健壮。而且，说话人嵌入向量联合训练的效果比经过说话者身份识别训练网络的效果更适合语音转换

关键词: voice conversion, speaker verification, speaker identification, speaker representation, speaker embedding, network robustness

语音转换，说话人验证，说话人识别，说话人表示，说话人嵌入向量标识，网络的鲁棒性

2. 简介

语音转换（VC）技术旨在在保持语言内容信息的同时，将话语的说话者特征转换为目标说话者的特征。在以前的工作中，需要配对平行多说话人语料才能实现VC。最近，有人提出了几种利用非平行数据的模型[1,2,3,4,5]。 DGAN-VC [6]通过对抗训练学习结构内容和说话者信息。 StarGANVC [7]采用条件输入来实现多对多语音转换。但是，两者都限于在培训过程中在看到的说话者之间进行VC。再以后就有了使用Zeroshot方法[8、9、10、11、12]，其中模型可以在任何说话人的语料之间执行VC，而无需进行微调模型。 AdaIN-VC [13]应用实例规范化操作技巧来满足这一对任意说话人均可以音色转换的要求。另外一种叫AUTOVC [14], 他采用了预训练的d-vector [15]和信息瓶颈的相关技巧

尽管最近VC技术变得越来越强大，但是大多数论文都在相同语料库（通常是VCTK语料库[16]）上训练和评估其VC模型,