Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

最新推荐文章于 2024-08-20 22:09:13 发布

林林宋

最新推荐文章于 2024-08-20 22:09:13 发布

阅读量248

点赞数 1

分类专栏： paper笔记文章标签： r语言 elasticsearch 开发语言

原文链接：https://arxiv.org/abs/2107.12562

版权

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

会议：2021 interspeech
作者：panshifeng
单位：microsoft

abstract

motivation：Cross-speaker style transfer TTS
现有技术的痛点：（1）单个的prosody encoder无法提供精确的prosody information；（2）prosody information中还混合有context，speaker，prosody等多种信息。

methods

做一个multi-speaker，multi-prosody的TTS，提供phone-level prosody bottleneck信息控制。-----问题在于：如果么有src_style对应的句子，似乎无法生成target。

在这里插入图片描述

cross-speaker style transfer的过程

source_spk_id+src_style+content 生成prosody feature;
tar_spk_id+src_styke+content生成encoder output；
1+2合成语音。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

会议：2021 interspeech作者：panshifeng单位：microsoftdemo pageabstractmotivation：Cross-speaker style transfer TTS现有技术的痛点：（1）单个的prosody encoder无法提供精确的prosody information；（2）prosody information中还混合有context，speaker，prosody等多种信息。methods做一个multi-speaker，multi-pr
复制链接

扫一扫

专栏目录

林林宋 CSDN认证博客专家 CSDN认证企业博客

码龄7年

190: 原创

2万+: 周排名

6129: 总排名

35万+: 访问

: 等级

5288: 积分

241: 粉丝

262: 获赞

73: 评论

811: 收藏

私信

关注

分类专栏

最新评论

mega-TTS 1&2
学习小呆呱: 我发现作者在ICLR的版本和arxiv上的有些许差别，但是ICLR给出了更多的实现细节。
mega-TTS 1&2
林林宋: 就是这几个模块都是conv的结构
mega-TTS 1&2
林林宋: 你是这位好人吗
mega-TTS 1&2
utopiaboy: 有位好人进行了非官方实现: https://github.com/LSimon95/megatts2, 请问您可以参与吗?
风格迁移adaIN 和DiT的adaLN
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。