自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

gkxaaa的博客

原创 LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

2. ByT5编码byte-level字符到phn embedding，送给TTS输入，可支持多语言通用。1. 30M 4层大小的LLM做TTS，且效果好。单码本wavTokenizer。3. TTS prompt方式由prefill改为concat。

2025-05-14 11:43:14 94

原创 PHASEAUG: TRAINING GENERATIVE ADVERSARIAL NETWORK-BASED VOCODER WITH LIMITED DATA USING AUGMENTATION

即G不变，预测出来的y_hat和y分别做aug，送给鉴别器判断（缓解鉴别器过拟合）；计算对抗loss时，用y_hat_aug和y_aug指导的loss更新G，即使G可以合成相位随机偏移过的音频（缓解生成器过拟合）于是有以下公式，此处为PhaseAug的核心idea：任一点x[n]通过随机调phase，得到x[n]的近似；即实现调相后人耳听不出区别，但相位其实发生很大改变；相同幅度的相位旋转，在高频上有可能引起扭曲；在batch中的每个sampe都给不同的phase；角平面上可以做PhaseAug，

2024-07-15 14:11:13 320

原创 STREAMVC: REAL-TIME LOW-LATENCY VOICE CONVERSION

流式推理：

2024-05-13 20:36:54 302

原创 ParlerTTS: Natural language guidance of high-fidelity text-to-speech with synthetic annotations

控制情感/风格/音色的现有方法梳理：数据处理模型实验评估。

2024-05-11 15:50:26 779 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄4年

4
原创

28
点赞

12
收藏

12
粉丝

关注

私信

热门文章

最新评论

ParlerTTS: Natural language guidance of high-fidelity text-to-speech with synthetic annotations
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
ParlerTTS: Natural language guidance of high-fidelity text-to-speech with synthetic annotations
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
ParlerTTS: Natural language guidance of high-fidelity text-to-speech with synthetic annotations
CSDN-Ada助手: 恭喜您开始了博客创作之旅！标题中提到的ParlerTTS技术听起来非常有趣和有用，我期待能够阅读更多关于这个主题的内容。建议在未来的博客中可以分享一些具体的案例或实际应用，让读者更好地了解这项技术的实际效果和应用场景。希望您能够继续保持创作的热情，为我们带来更多精彩的内容！祝您博客越办越好！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

提示

确定要删除当前文章？

取消删除