淡黄的长裙~~读《Mellotron: Multispeaker Expressive Voice Synthesis by Conditioning on Rhythm...》有感

最近看了一篇2021年的新文章叫做《Expressive Neural Voice Cloning》,期间在Mellotron的基础上作了一些改进达到了不错的效果,所以从Mellotron看起,认真研究一下。

首先摘要部分就介绍了Mellotron是基于Tacotron2+GST(感觉老生常谈了),可以从音频中明确调节rhythm和continuous pitch contours,从而产生多种不同风格的声音甚至是从未在训练集中出现训练而产生的歌声。并且不需要pitch和text强对齐也可以学习到alignment的信息。

既然是TTS,那么自然重头戏在于各个变量的解离和建模,文章也采用了五个方面的信息来“描绘”一段音频,分别是:
显式建模:(Text)(speaker id)(F0基频信息)
隐式建模:(类似于GST的style token)(利用Tacotron2对齐的rhythm+alignment)
显式建模的优点:
1 提高了文本和说话人之间的解纠缠特性
2 提供了F0和语音信息,在推理时可以直接控制基音和语音决策
隐式建模的优点:
1 通过在训练过程中学习text/mel之间的对齐图,不需要提取音素对齐来进行训练,并且可以通过向模型提供对齐图来控制inference时的节奏。
2 通过为模型提供一个潜在变量字典(类似于token matrix),我们能够学习那些难以明确表达或提取的潜在因素,从而充分利用潜在变量的力量。

从而公式化Mellotron为:
在这里插入图片描述
其实文章最大的改进就是提高了对pitch contour也就是F0的关注程度,通过一些实时算法Yin或者Melody可以直接获得F0,从而更好的控制合成的语音效果。

文章做了一些例如rhythm||rhythm and pitch transfer的迁移实验,并且也尝试在音乐方面做了风格迁移,虽然文章阐述效果良好,但是从提供的音频数据来看,合成的效果在风格迁移方面有起色,但是噪声也确实存在,在音乐方面的效果有点类似于(淡黄的长裙,蓬松的头发~~),总之确实有改进空间,文章最后也指出了希望在rhythm和pitch contour对合成音频的影响。
在这里插入图片描述

以上就是对Mellotron的浅显阅读,过两天尝试读一下源码,有机会可以画一下结构图来充实一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值