S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations

最新推荐文章于 2024-07-26 13:24:37 发布

林林宋

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量389

点赞数

分类专栏： paper笔记文章标签：人工智能深度学习

原文链接：https://arxiv.org/abs/2110.06280

版权

paper笔记专栏收录该内容

162 篇文章 23 订阅

订阅专栏

会议： 2022 icassp投稿
单位： Nagoya，台湾国立，CMU
作者：Wen-Chin Huang， Hung-yi Lee， Tomoki Toda

文章目录

abstract

S3PRL：self-supervised speech representation
各种S3PRL模型作为上游模型，提供speech representation，对比不同的S3PRL模型作为上游输入的结果，以及any-to-one，any-to-any任务，intra-lingual 和cross-lingual任务。

Implementation

三套模型框架
Simple：FC+2LSTM+linear
Simple-AR：simple model+AR
Taco2-AR：tacotron2—attention对齐

discussion

不同模型的对比

Simple-AR比simple的WER普遍下降，但是Taco2-AR的相似度增加，WER增大——增加模型复杂度，可以改善音色相似度，但是会损失WER。本文后边的比较使用的都是Taco2-AR。

跨语言任务对比

S3PRL模型都可以支持跨语言的任务，但是对于any2one任务，跨语言的WER比同语言的WER要低。
Any2any任务的WER和ASV分数都比Any2one的低，分析原因主要是：S3Rs解耦的内容信息中还有大量的说话人信息；另外一个原因是speaker encoder应该联合训练。

top systems的主观评价

vq-wav2vec在intra-lingual & A2O任务的结果上，自然度、相似度得分最高；

ppgs方法对比

基于ppgs方法可以有更好的相似度，但是WER很高——supervision的方法确实对相似度有改善，可以更好的做content解耦，而目前的S3Rs做的还不够好。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations

会议： 2022 icassp投稿单位： Nagoya，台湾国立，CMU作者：Wen-Chin Huang， Hung-yi Lee， Tomoki Toda代码地址文章目录abstractImplementationdiscussion不同模型的对比跨语言任务对比top systems的主观评价ppgs方法对比abstractS3PRL：self-supervised speech representation各种S3PRL模型作为上游模型，提供speech representation，对
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。