A survey on prosody modeling

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

1、通过韵律潜在空间的迁移来捕获语音中有意义的变化(即,使用潜在表示来使一个语音听起来像另一个一样);

2、提出了reference encoder的架构

Robust and Fine-grained Prosody Control of End-to-end Speech Synthesis

使用细粒度时间结构(通过调整可变长度韵律嵌入(对齐、下采样))来编码与来自对齐的目标语谱图的输入序列中的每个音素相关联的韵律(完成细粒度韵律控制)

Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis

分层韵律建模框架,其中音素级韵律预测以词级韵律预测为条件,以结合音素级和词级韵律建模的优势。通过客观和主观评价,我们验证了所提出的分层模型优于任何其他感兴趣的韵律建模范式。 

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

 我们提出了“global style tokens”(GST)学习对大量声学表达能力进行建模

Learning Latent Representations for Style Control and Transfer in End-to-end Speech Synthesis

我们将变分自编码器(VAE)引入到一个端到端语音合成模型中,以无监督的方式学习说话风格的潜在表示。通过VAE学习的样式表示具有解纠缠、缩放和组合等良好的特性,这使样式控制变得容易。 

Learning Syllable-Level Discrete Prosodic Representation for Expressive Speech Generation

从语音数据中通过矢量量化变分自动编码器 (VQ-VAE) 用于离散化学习到的连续韵律表示学习音节级离散韵律表示 结果表明,与传统的音素级 TTS 系统相比,所提出的音节级神经 TTS 系统产生了更自然的语音,实现了韵律迁移,并且潜在韵律编码可以根据特定的韵律变化来解释。

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

 VAE+phoneme level 

SUN G, ZHANG Y, WEISS R J, 等. Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis[C/OL]//ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain. 2020. 

(以词级为条件利用条件VAE指导phoneme级韵律合成)

Visualization and Interpretation of Latent Spaces for Controlling Expressive Speech Synthesis through Audio Analysis

(潜在空间信息与声学特征之间的关系)

Y. Lei, S. Yang, X. Wang and L. Xie, "MsEmoTTS: Multi-Scale Emotion Transfer, Prediction, and Control for Emotional Speech Synthesis," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 853-864, 2022, doi: 10.1109/TASLP.2022.3145293. 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Microsoft TTS(Text-to-Speech)是由微软开发的语音合成技术,具有以下核心技术、优点和缺点: 核心技术: 1. Neural TTS:微软TTS采用了神经网络模型,如Deep Neural Networks(DNN)和Recurrent Neural Networks(RNN),以及WaveNet等技术。这些模型能够生成自然、流畅的语音,并具有较高的音质和语音表达能力。 2. Prosody Modeling:微软TTS还采用了韵律建模技术,以更好地控制合成语音的节奏、音调和语音情感等特征,提高合成语音的自然度和表达能力。 优点: 1. 高质量的语音合成:微软TTS通过神经网络模型和韵律建模技术,能够生成高质量、自然流畅的语音。合成的语音听起来非常逼真,接近于真实人类的发声。 2. 多语言支持:微软TTS支持多种语言,包括英语、中文、法语、德语、日语等,使其在全球范围内具有广泛的应用和适用性。 3. 可定制性强:微软TTS提供了丰富的参数和选项,使用户能够对合成语音进行定制,调整音调、语速、音量等属性,以满足个性化需求。 4. 良好的语音表达能力:微软TTS通过韵律建模技术,能够更好地表达语音的节奏、音调和情感等特征,使合成语音更加自然、生动。 缺点: 1. 依赖网络连接:使用微软TTS通常需要与互联网连接,因为语音合成模型通常存储在云端服务器上。这可能限制了离线使用或在网络不稳定的环境下使用的能力。 2. 计算资源需求较高:由于微软TTS采用了神经网络模型和韵律建模技术,它对计算资源的需求较高。这可能对一些资源受限的设备或应用场景造成一定的限制。 综上所述,微软TTS通过神经网络模型和韵律建模技术,具有高质量的语音合成、多语言支持、可定制性强和良好的语音表达能力等优点。然而,它也存在对网络连接的依赖和计算资源需求较高等缺点,需要用户在选择和使用时进行考虑。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值