论文阅读 TalkNet2

最近忙着找工作,又要搞毕业论文,都没时间记录了,就写一下。
TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis with Explicit Pitch and Duration Prediction
做了个小Demo
NVIDIA的一篇论文,采用流行的非自回归学习网络,以及将网络结构进行调整,主要采用深度可分离卷积。PS. NVIDIA用深度可分离的残差卷积结构,把语音领域的任务都走了一遍。
就是这个
就是上面这个基本网络

这篇论文,借鉴了Fastspeech,我觉得整体网络结构明了简单,也方便复现,记录一下,整体结构图:
在这里插入图片描述

只看绿色部分就好,分三个部分:持续时间预测模块、音高预测模块和梅尔频谱图预测模块。比较新奇的是这三个模块是分开训练的,并且训练的时间很短。虽然训练比较方便,但是前期工作需要将文本和音频作MFA(montreal forced aligner)对齐操作。PS.有着一定声学的理论支持,做网络也比较省事儿,就知道音高是一个比较关键的特征,合成mel图,有持续时间和音高就够了。优势主要模型小训练快,但训练出的音质的话,还算行吧,比不上自回归,不过也够听了。

现在语音合成的质量已经够了,就是往小型化转,或者去弄多情感多人的,还有蛮大进步空间,再要不就是克隆别人的声音了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赫凯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值