Transferring Source Style in Non-Parallel Voice Conversion

会议:2020 interspeech
作者:Songxiang Liu, Shiyin Kang,Helen Meng
单位:The Chinese University of Hong Kong, Tencent AI Lab

abstract

  • 情感VC:说话者想要表达的信息不仅包含speech的内容,也包含在speech中的一些情感、重读也中。
  • 本文提出一种基于非平行数据sequence-to-sequence的EVC

1. introduction

在这里插入图片描述

  • 将speech拆成几个部分:Y-文本;Z: speaking style;S:speaker;R:rhythm
  • 韵律表征音素的时间内容,因此和Z/Y相关

2. Proposed approach

在这里插入图片描述

  • rhythm:加一个预测rhythm的模块,和duration predictors的作用差不多,输出phn对应的持续时间,是整数序列
  • style embedding:用GST建模;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值