MaskGCT: Zero-Shot Text-to-Speech with MaskedGenerative Codec Transformer

MaskGCT

1.目的:自回归系统隐式地模拟了持续时间,但在鲁棒性和持续时间可控性方面存在某些不足。非自回归系统在训练过程中需要文本和语音之间的显式对齐信息,并预测语言单元(如phone)的持续时间,这可能会损害它们的自然性,因此提出GCT,一种完全非自回归TTS模型,消除了对文本和语音监控之间显式对齐信息以及phone级持续时间预测的需求

2.模型:两阶段模型

1)text-to-semantic (T2S) mode:使用text token 和speech token作为前缀,用icl来预测mask的语义token:文本来预测从语音自监督学习中提取的语义标记

2)semantic-to-acoustic (S2A) mode:使用语义token预测基于rvq产生的带prompt的mask的声学token

3)训练:MaskGCT学会根据给定的条件和prompt预测被掩盖的语义或声学标记;推理:模型以并行模式生成指定长度的token

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值