语音合成(speech synthesis)方向八:韵律迁移和建模

本文探讨了语音合成中的韵律迁移和建模,区分了前端韵律与声学特征学习的韵律。介绍了粗粒度和细粒度韵律调控的论文,涵盖从句子级别到音素级别的韵律控制。文章列举了多个研究,包括无监督学习的韵律迁移、风格令牌的解耦、细粒度韵律控制、多级韵律架构等,旨在使合成语音更自然且富有情感。
摘要由CSDN通过智能技术生成

声明:工作以来主要从事TTS工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进

(本来想写完整后再发出,大家可以根据选取的文章先看个大概,等闲下来后再详细写。我接下来一个月可能碰到一些事情,更新也将会断断续续,望谅解)

此处的韵律跟前端韵律不同,前端的韵律是从语言学的角度来定义停顿时长,是表现目标,对于所有说话人都是一样。本文所讲的韵律是从声学特征学习的具体表现形式,其内容可包含情感,语速,语音质量等级等等信息,主要使合成的语音更加自然,富有情感,对于每位说话人都是不同。文章按照韵律调整的粒度分为两类:粗粒度和细粒度。粗粒度为句子级别的迁移调控,细粒度为phrase,word,phone的调控。接下来将讲解如下几篇文章:

粗粒度:

1)Towards end-to-end prosody transfer for expressive speech synthesis with tacotron (2018)

https://arxiv.org/pdf/1803.09047.pdf

2)Style tokens: Unsupervised style modeling, con

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值