- 博客(4)
- 收藏
- 关注
原创 LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
2. ByT5编码byte-level字符到phn embedding,送给TTS输入,可支持多语言通用。1. 30M 4层大小的LLM做TTS,且效果好。单码本wavTokenizer。3. TTS prompt方式由prefill改为concat。
2025-05-14 11:43:14
94
原创 PHASEAUG: TRAINING GENERATIVE ADVERSARIAL NETWORK-BASED VOCODER WITH LIMITED DATA USING AUGMENTATION
即G不变,预测出来的y_hat和y分别做aug,送给鉴别器判断(缓解鉴别器过拟合);计算对抗loss时,用y_hat_aug和y_aug指导的loss更新G,即使G可以合成相位随机偏移过的音频(缓解生成器过拟合)于是有以下公式,此处为PhaseAug的核心idea:任一点x[n]通过随机调phase,得到x[n]的近似;即实现调相后人耳听不出区别,但相位其实发生很大改变;相同幅度的相位旋转,在高频上有可能引起扭曲;在batch中的每个sampe都给不同的phase;角平面上可以做PhaseAug,
2024-07-15 14:11:13
320
原创 ParlerTTS: Natural language guidance of high-fidelity text-to-speech with synthetic annotations
控制情感/风格/音色的现有方法梳理:数据处理模型实验评估。
2024-05-11 15:50:26
779
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人