自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 论文分享|[AAAI 2025] TechSinger: 基于流匹配的技巧可控多语言歌声合成

歌声合成任务旨在通过输入的歌词和乐谱生成高质量的歌声。随着深度学习技术的发展,现有方法在生成自然且高质量的音频方面取得了显著进展,但鲜少能实现精准控制的歌唱技巧(如强度、混声、假声和气声等)。为此,本文提出TechSinger,一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统,克服传统方法在可控性和艺术表达上的局限。

2025-03-09 14:30:41 902

原创 论文分享|[ACL 2024] 鲁棒的歌声转录服务于合成

音符级自动歌声转录(AST)将歌唱录音转换为音符序列,为歌声合成(SVS)应用中的歌唱数据集自动标注提供了便利。然而,目前的 AST 方法在实际标注中在准确性和鲁棒性方面存在困难。本文提出了 ROSVOT,这是首个服务于 SVS 的鲁棒 AST 模型,它结合了多尺度框架,能有效捕获粗粒度音符信息并确保细粒度的帧级分割,同时配备基于注意力机制的音高解码器以进行可靠的音高预测。我们还为 SVS 建立了一个全面的标注和训练流程,以便在实际环境中测试该模型。实验结果表明,ROSVOT 在输入干净或有噪声的情况下都能

2024-10-18 19:59:18 1228

原创 论文分享|[NeurIPS 2024 DB Track Spotlight] GTSinger: 适配所有歌声任务、带有真实乐谱的多语言多技巧歌声数据集

高质量且支持多任务的歌声数据集稀缺,严重阻碍了多样化、可控且个性化歌声任务的发展。现有的歌声数据集存在以下问题:质量较低、语言和歌手的多样性有限、缺乏多种演唱技巧信息和真实的乐谱,并且不适用于多种任务。为了解决这些问题,我们提出了GTSinger,一个大型的全球性、多技术、免费且高质量的歌声语料库,包含真实的乐谱,专为各类歌声任务设计,并提供相关基准测试。

2024-10-13 19:43:53 1241

原创 论文分享|[EMNLP 2024] TCSinger: 风格迁移和多级风格控制的零样本歌声合成

风格迁移和风格控制的零样本歌声合成(SVS)旨在根据音频和文本提示生成具有未见过的音色和风格(包括演唱方法、情感、节奏、技巧和发音)的高质量歌声。然而,歌唱风格的多面性对有效的建模、迁移和控制构成了重大挑战。此外,当前的歌声合成(SVS)模型往往无法为未见过的歌手生成富含风格细微差别的歌声。为应对这些挑战,我们引入了 TCSinger,这是首个用于跨语言语音和歌唱风格进行风格迁移以及多级风格控制的零样本歌声合成模型。

2024-10-02 01:43:50 1561

原创 论文分享|[AAAI 2024] StyleSinger: 域外歌声合成和风格迁移

域外(OOD)歌声合成(SVS)中的风格迁移,重点在于依据参考歌声样本中未见过的风格(例如音色、情感、发音和吐字技巧等)来生成高质量的歌声。不过,由于歌声具有很强的表现力,所以对歌声风格复杂的细微差别进行建模是一项艰巨的任务。而且,现有的歌声合成方法在域外场景下会出现合成歌声质量下滑的现象,因为这些方法假定在训练阶段目标声音属性是可辨别的。为克服这些难题,我们提出了 StyleSinger,这是首个针对域外参考歌声样本进行零样本风格迁移的歌声合成模型。

2024-10-02 01:21:13 1605 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除