
MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;acoustic token 的encoder 来自DAC, decoder来自vocos;
























