SLT2021: HOW FAR ARE WE FROM ROBUST VOICE CONVERSION: A SURVEY

0. 题目

HOW FAR ARE WE FROM ROBUST VOICE CONVERSION: A SURVEY

一个调查: 我们距离鲁棒性强的音色转换还有多远?

1. 摘要

近年来,在深度学习的帮助下,语音转换技术得到了极大的改进,但是在不同条件下产生自然发声的能力仍然不清楚。 在本文中,我们对已知VC模型的鲁棒性进行了深入研究。 我们还修改了这些模型,例如替换了说话人嵌入向量编码,以进一步提高其性能。 我们发现采样率和音频持续时间极大地影响了语音转换。 所有的VC模型对于未见过的说话人, 均表现不好,但是AdaIN-VC相对更健壮。 而且,说话人嵌入向量联合训练的效果比经过说话者身份识别训练网络的效果更适合语音转换

关键词: voice conversion, speaker verification, speaker identification, speaker representation, speaker embedding, network robustness

语音转换,说话人验证,说话人识别,说话人表示,说话人嵌入向量标识,网络的鲁棒性

2. 简介

语音转换(VC)技术旨在在保持语言内容信息的同时,将话语的说话者特征转换为目标说话者的特征。 在以前的工作中,需要配对平行多说话人语料才能实现VC。 最近,有人提出了几种利用非平行数据的模型[1,2,3,4,5]。 DGAN-VC [6]通过对抗训练学习结构内容和说话者信息。 StarGANVC [7]采用条件输入来实现多对多语音转换。 但是,两者都限于在培训过程中在看到的说话者之间进行VC。 再以后就有了使用Zeroshot方法[8、9、10、11、12],其中模型可以在任何说话人的语料之间执行VC,而无需进行微调模型。 AdaIN-VC [13]应用实例规范化操作技巧来满足这一对任意说话人均可以音色转换的要求。 另外一种叫AUTOVC [14], 他采用了预训练的d-vector [15]和信息瓶颈的相关技巧

 

尽管最近VC技术变得越来越强大,但是大多数论文都在相同语料库(通常是VCTK语料库[16])上训练和评估其VC模型,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值