继续其开源的生成式AI使命,Meta最新推出的产品是AudioCraft,这是一组文本到音频和音乐模型。
AudioCraft包括三个模型:MusicGen、AudioGen和EnCodec。这些模型的命名非常贴切——MusicGen从文本提示中生成Meta拥有和经过授权的音乐,AudioGen从公共音频中训练生成音效,而改进版的EnCodec解码器能够以较少的伪像生成“更高质量”的音乐,据公司称。
Meta表示,这使得AudioCraft成为“一站式代码库”满足生成音频需求:音乐、音效和压缩。
MusicGen模型有300万、15亿和33亿个参数。AudioGen有2.85亿和10亿个参数。
Meta在一篇博文中表示,使用AI生成音乐存在局限性,这是由于使用了符号表示法,如MIDI或钢琴卷帘。这些方法“无法完全把握音乐中的表现细微差别和风格元素。”虽然近年来已经取得了更多进展,但公司表示“在这个领域还可以做得更多”。
Meta表示,通过AudioCraft,“人们可以轻松地扩展我们的模型并根据他们的研究用例进行调整。”“一旦让人们能够访问模型并根据自己的需求进行调整,几乎有无限的可能性。而这正是我们想通过这组模型实现的:赋予人们扩展他们工作的能力。”
然而&#