英伟达™(NVIDIA®)公司新推出的生成式人工智能模型可以使用文本和音频作为输入,创建音乐、声音和音效的任意组合。
Share 一组生成式人工智能研究人员创造了一把声音 “瑞士军刀”,用户只需使用文本就能控制音频输出。 虽然一些人工智能模型可以谱曲或修改声音,但没有一个能像这款新产品那样灵巧。 它被称为 Fugatto(Foundational Generative Audio Transformer Opus 1 的缩写),可以生成或转换任何音乐、声音和声音的组合,并使用文本和音频文件的任何组合进行提示描述。
例如,它可以根据文本提示创建音乐片段,从现有歌曲中移除或添加乐器,改变声音中的重音或情感,甚至让人们发出从未听过的声音。"这东西太疯狂了,"多白金唱片制作人兼词曲作者、英伟达™(NVIDIA®)Inception 计划尖端初创公司成员 One Take Audio 的联合创始人 Ido Zmishlany 说,"声音是我的灵感源泉。 "声音是我的灵感源泉。 是它打动我创作音乐。 我可以在录音室里随心所欲地创造出全新的声音,这种想法令人难以置信。
音频的声音片段
“我们想创建一个能够像人类一样理解并产生声音的模型,” NVIDIA应用音频研究经理,Fugatto背后的十多个人之一Rafael Valle以及管弦乐队指挥和作曲家。
Fugatto支持众多音频生成和转换任务,是第一个基础生成AI模型,该模型展示了其各种训练有素的能力—和结合自由格式指令的能力所产生的紧急特性—功能。
“Fugatto是我们迈向未来的第一步,在音频合成和转换中,无人监督的多任务学习是从数据和模型规模中产生的,” Valle说。
使用案例的示例播放列表
例如,音乐制作人可以使用Fugatto快速为歌曲制作原型或编辑想法,尝试不同的风格,声音和乐器。它们还可以添加效果并增强现有轨道的整体音频质量。
“音乐的历史也是技术的历史。电吉他给世界带来了摇滚。Zmishlany说,当采样器出现时,嘻哈音乐诞生了。“借助AI,我们正在编写音乐的下一章。我们有一个新乐器,一个用于制作音乐的新工具—,这非常令人兴奋。”
广告代理商可以应用Fugatto快速针对多个地区或情况针对现有广告系列,并在配音中应用不同的口音和情感。
语言学习工具可以个性化,以使用扬声器选择的任何声音。想象一下,任何家庭成员或朋友的声音都在线授课。
电子游戏开发人员可以使用该模型修改其标题中的预记录资产,以适应用户玩游戏时不断变化的动作。或者,他们可以根据文本说明和可选的音频输入即时创建新资产。
发出快乐的声音
“我们特别引以为傲的模型功能之一就是我们所说的鳄梨椅子,” Valle说, 新颖的视觉 由生成的AI模型创建以进行成像。
例如,Fugatto可以制作小号树皮或萨克斯风喵。无论用户可以描述什么,模型都可以创建。
通过微调和少量的唱歌数据,研究人员发现它可以处理未经预训练的任务,例如从文本提示中生成高质量的唱歌声音。
用户获得艺术控制
多种功能增加了Fugatto的新颖性。
在推理过程中,该模型使用一种称为ComposableART的技术来组合仅在训练过程中单独看到的指令。例如,各种提示可能会要求提供带有法语口音的悲伤表情的文字。
该模型在指令之间进行插值的能力使用户可以对文本指令进行细粒度的控制,在这种情况下,重音或悲伤的程度。
“我想让用户以主观或艺术的方式组合属性,选择他们对每个属性的重视程度,”设计模型这些方面的AI研究员Rohan Badlani说。
“在我的测试中,结果常常令人惊讶,即使我是计算机科学家,也让我感觉有点像艺术家。” Badlani说,他拥有计算机科学硕士学位,专注于AI来自斯坦福大学。
该模型还产生随时间变化的声音,他称之为时间插值功能。例如,它可以产生暴雨的声音,该暴雨穿过雷声渐渐逐渐消失的区域。它还为用户提供了对音景演变的细粒度控制。
另外,与大多数型号不同,Fugatto只能重新创建他们所接触的训练数据,Fugatto允许用户创建前所未有的音景,例如雷暴随着鸟儿唱歌的声音而逐渐消失。
引擎盖下的外观
Fugatto是一种基础的生成变压器模型,它基于团队在诸如 语音建模, 音频声码 和 音频理解。
完整版使用25亿个参数,并在 NVIDIA DGX系统 包装32 NVIDIA H100张量芯GPU。
Fugatto由来自印度,巴西,中国,约旦和韩国等世界各地的不同人群组成。他们的合作使Fugatto的多口音和多语言功能更强大。
努力中最困难的部分之一是生成一个混合数据集,其中包含用于培训的数百万个音频样本。该团队采用了多方面的策略来生成数据和指令,从而大大扩展了模型可以执行的任务范围,同时实现了更准确的性能并启用了新任务,而无需其他数据。
他们还仔细检查了现有数据集,以揭示数据之间的新关系。整体工作超过一年。
Valle记得两个时刻,当时团队知道事情正在发生。“他第一次从提示中产生音乐,这让我们大吃一惊,”。
后来,该团队演示了Fugatto响应的提示,以创建电子音乐,并在节拍时及时吠叫。
“当小组因欢笑而分手时,它真的使我心动。”
原文 https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗