S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations

会议: 2022 icassp投稿
单位: Nagoya,台湾国立,CMU
作者:Wen-Chin Huang, Hung-yi Lee, Tomoki Toda

代码地址

abstract

S3PRL:self-supervised speech representation
各种S3PRL模型作为上游模型,提供speech representation,对比不同的S3PRL模型作为上游输入的结果,以及any-to-one,any-to-any任务,intra-lingual 和cross-lingual任务。

Implementation

三套模型框架
Simple:FC+2LSTM+linear
Simple-AR:simple model+AR
Taco2-AR:tacotron2—attention对齐

discussion

不同模型的对比

Simple-AR比simple的WER普遍下降,但是Taco2-AR的相似度增加,WER增大——增加模型复杂度,可以改善音色相似度,但是会损失WER。本文后边的比较使用的都是Taco2-AR。

跨语言任务对比

S3PRL模型都可以支持跨语言的任务,但是对于any2one任务,跨语言的WER比同语言的WER要低。
Any2any任务的WER和ASV分数都比Any2one的低,分析原因主要是:S3Rs解耦的内容信息中还有大量的说话人信息;另外一个原因是speaker encoder应该联合训练。

top systems的主观评价

  • vq-wav2vec在intra-lingual & A2O任务的结果上,自然度、相似度得分最高;

ppgs方法对比

基于ppgs方法可以有更好的相似度,但是WER很高——supervision的方法确实对相似度有改善,可以更好的做content解耦,而目前的S3Rs做的还不够好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值