语音合成论文优选:One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

这篇论文介绍了国立台湾大学的研究,提出了一种支持one-shot的语音转换方法,通过分离说话人和内容特征实现。研究背景中,传统语音转换分为平行数据和非平行数据,非平行数据的转换效果受限于ASR质量。论文提出的新方法包含speaker encoder、content encoder和decoder,使用instance normalization解耦说话人信息,提高了转换的便捷性和效果。实验结果显示,该方法能有效区分不同说话人,并且转换后的音频在客观和主观评估上表现出高相似度。
摘要由CSDN通过智能技术生成

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

​欢迎关注微信公众号:低调奋进

One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization

本文章是国立台湾大学电气工程与计算机科学学院发表的关于声音转换的工作,本文章是把音频分解为语言特征和说话人特征,然后再进行组合,具体的文章链接

https://arxiv.org/pdf/1904.05742.pdf

demo链接

one-shot-vc-demo

(最近搞VC,前期试验使用ppg效果还算好,但存在的缺点是效果受到ASR的制约,而且刚进入公司不久,跨组让ASR帮忙真的很不便利,因此决定不使用ppg方案,所以尝试该篇文中的方案)

1 研究背景

voice conversion是保留音频的内容而更换音频的音色,以前的VC可以被分为两类:平行数据和非平行数据。平行数据是转换设计的源音频和目标音频的内容一致,这是不容易获得的。非平行数据是源音频和目标音频的内容不一致,甚至可以跨语言,因此受到很多人的关注。目前࿰

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值