2021 icassp Fragmentvc & 2021 interspeech S2VC phonetic信息和说话人向量用attention对齐

最新推荐文章于 2022-10-22 21:39:11 发布

林林宋

最新推荐文章于 2022-10-22 21:39:11 发布

阅读量371

点赞数

分类专栏： paper笔记文章标签：自然语言处理深度学习机器学习

原文链接：https://arxiv.org/pdf/2010.14150.pdf

版权

162 篇文章 23 订阅

订阅专栏

单位：台湾国立
作者：Yist Y. Lin【1】，Jheng-hao Lin【2】，Hung-yi Lee

Any-to-any voice conversion by end-to-end extract- ing and fusing fine-grained voice fragments with attention

使用Wav2Vec 2.0提取phontic信息，目标说话人的信息从log-mel spec中获得；通过训练，将两个不同的特征空间进行对齐，实现any-to-any的变声。

通过pre-trained word2vec模型提取phonetic信息，target speaker encoder提取目标说话人的信息，耦合再decoder中用于重建。只有一个重建loss用于模型参数更新指导。
在这里插入图片描述

两阶段训练：

第一阶段：word2vec和target speaker encoder的输入是同一个人的同一句话，目的是让模型通过extracting和fusing 有声的片段，学到Wav2Vec feature space 和spectral feature space 的对齐关系。如果这一阶段的source和target来自不同的句子，也能生成目标人音色的语音，但是连续性不好。----即使是一样的句子，attention也无法从学到谱特征种学到声学事件的绝对位置信息？？
第二阶段：target speaker encoder的输入是10句话谱特征的拼接，刚开始，source utt是包含在10句话中的，但是存在的比例会慢慢降低，使得模型慢慢学到更大的不一致性。为了保持attention学到的信息，source encoder/target encoder和extractor 的学习率调低。

代码实现
A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations

在这里插入图片描述

在这里插入图片描述
两个预训练的SSL分别提取phonetic信息和说话人信息，然后用attention对两个特征空间进行对齐，完成两个特征的耦合。

自监督学习：知乎讲解

关注