2021 icassp Fragmentvc & 2021 interspeech S2VC phonetic信息和说话人向量用attention对齐


单位:台湾国立
作者:Yist Y. Lin【1】,Jheng-hao Lin【2】,Hung-yi Lee

【2021 icassp 】Fragmentvc

Any-to-any voice conversion by end-to-end extract- ing and fusing fine-grained voice fragments with attention

abstract

使用Wav2Vec 2.0提取phontic信息,目标说话人的信息从log-mel spec中获得;通过训练,将两个不同的特征空间进行对齐,实现any-to-any的变声。

method

通过pre-trained word2vec模型提取phonetic信息,target speaker encoder提取目标说话人的信息,耦合再decoder中用于重建。只有一个重建loss用于模型参数更新指导。
在这里插入图片描述

两阶段训练:

  • 第一阶段:word2vec和target speaker encoder的输入是同一个人的同一句话,目的是让模型通过extracting和fusing 有声的片段,学到Wav2Vec feature space 和spectral feature space 的对齐关系。如果这一阶段的source和target来自不同的句子,也能生成目标人音色的语音,但是连续性不好。----即使是一样的句子,attention也无法从学到谱特征种学到声学事件的绝对位置信息??
  • 第二阶段:target speaker encoder的输入是10句话谱特征的拼接,刚开始,source utt是包含在10句话中的,但是存在的比例会慢慢降低,使得模型慢慢学到更大的不一致性。为了保持attention学到的信息,source encoder/target encoder和extractor 的学习率调低。

【2021 interspeech】S2VC

代码实现
A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations

在这里插入图片描述

在这里插入图片描述
两个预训练的SSL分别提取phonetic信息和说话人信息,然后用attention对两个特征空间进行对齐,完成两个特征的耦合。

自监督学习:知乎讲解

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值