Aaron34-CSDN博客

原创论文分享｜[AAAI 2025] TechSinger: 基于流匹配的技巧可控多语言歌声合成

歌声合成任务旨在通过输入的歌词和乐谱生成高质量的歌声。随着深度学习技术的发展，现有方法在生成自然且高质量的音频方面取得了显著进展，但鲜少能实现精准控制的歌唱技巧（如强度、混声、假声和气声等）。为此，本文提出TechSinger，一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统，克服传统方法在可控性和艺术表达上的局限。

2025-03-09 14:30:41 902

原创论文分享｜[ACL 2024] 鲁棒的歌声转录服务于合成

音符级自动歌声转录（AST）将歌唱录音转换为音符序列，为歌声合成（SVS）应用中的歌唱数据集自动标注提供了便利。然而，目前的 AST 方法在实际标注中在准确性和鲁棒性方面存在困难。本文提出了 ROSVOT，这是首个服务于 SVS 的鲁棒 AST 模型，它结合了多尺度框架，能有效捕获粗粒度音符信息并确保细粒度的帧级分割，同时配备基于注意力机制的音高解码器以进行可靠的音高预测。我们还为 SVS 建立了一个全面的标注和训练流程，以便在实际环境中测试该模型。实验结果表明，ROSVOT 在输入干净或有噪声的情况下都能

2024-10-18 19:59:18 1228

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Aaron34的博客

原创论文分享｜[AAAI 2025] TechSinger: 基于流匹配的技巧可控多语言歌声合成

原创论文分享｜[ACL 2024] 鲁棒的歌声转录服务于合成

原创论文分享｜[NeurIPS 2024 DB Track Spotlight] GTSinger: 适配所有歌声任务、带有真实乐谱的多语言多技巧歌声数据集

原创论文分享｜[EMNLP 2024] TCSinger: 风格迁移和多级风格控制的零样本歌声合成

原创论文分享｜[AAAI 2024] StyleSinger: 域外歌声合成和风格迁移

空空如也

空空如也

原创 论文分享｜[AAAI 2025] TechSinger: 基于流匹配的技巧可控多语言歌声合成

原创 论文分享｜[ACL 2024] 鲁棒的歌声转录服务于合成

原创 论文分享｜[NeurIPS 2024 DB Track Spotlight] GTSinger: 适配所有歌声任务、带有真实乐谱的多语言多技巧歌声数据集

原创 论文分享｜[EMNLP 2024] TCSinger: 风格迁移和多级风格控制的零样本歌声合成

原创 论文分享｜[AAAI 2024] StyleSinger: 域外歌声合成和风格迁移

空空如也

空空如也

原创论文分享｜[AAAI 2025] TechSinger: 基于流匹配的技巧可控多语言歌声合成

原创论文分享｜[ACL 2024] 鲁棒的歌声转录服务于合成

原创论文分享｜[NeurIPS 2024 DB Track Spotlight] GTSinger: 适配所有歌声任务、带有真实乐谱的多语言多技巧歌声数据集

原创论文分享｜[EMNLP 2024] TCSinger: 风格迁移和多级风格控制的零样本歌声合成

原创论文分享｜[AAAI 2024] StyleSinger: 域外歌声合成和风格迁移