Meta 开源文本音频和音乐模型

每日值得看

已于 2023-09-21 10:15:37 修改

阅读量181

点赞数

文章标签：音视频

于 2023-08-07 10:43:13 首次发布

本文链接：https://blog.csdn.net/everydaynews/article/details/132141634

版权

继续其开源的生成式AI使命，Meta最新推出的产品是AudioCraft，这是一组文本到音频和音乐模型。AudioCraft包括三个模型：MusicGen、AudioGen和EnCodec。这些模型的命名非常贴切——MusicGen从文本提示中生成Meta拥有和经过授权的音乐，AudioGen从公共音频中训练生成音效，而改进版的EnCodec解码器能够以较少的伪像生成“更高质量”的音乐，据公司称。Meta表示，这使得AudioCraft成为“一站式代码库”满足生成音频需求：音乐、音效和压缩。

摘要由CSDN通过智能技术生成

继续其开源的生成式AI使命，Meta最新推出的产品是AudioCraft，这是一组文本到音频和音乐模型。

AudioCraft包括三个模型：MusicGen、AudioGen和EnCodec。这些模型的命名非常贴切——MusicGen从文本提示中生成Meta拥有和经过授权的音乐，AudioGen从公共音频中训练生成音效，而改进版的EnCodec解码器能够以较少的伪像生成“更高质量”的音乐，据公司称。

Meta表示，这使得AudioCraft成为“一站式代码库”满足生成音频需求：音乐、音效和压缩。

MusicGen模型有300万、15亿和33亿个参数。AudioGen有2.85亿和10亿个参数。

Meta在一篇博文中表示，使用AI生成音乐存在局限性，这是由于使用了符号表示法，如MIDI或钢琴卷帘。这些方法“无法完全把握音乐中的表现细微差别和风格元素。”虽然近年来已经取得了更多进展，但公司表示“在这个领域还可以做得更多”。

Meta表示，通过AudioCraft，“人们可以轻松地扩展我们的模型并根据他们的研究用例进行调整。”“一旦让人们能够访问模型并根据自己的需求进行调整，几乎有无限的可能性。而这正是我们想通过这组模型实现的：赋予人们扩展他们工作的能力。”

然而&#

最低0.47元/天解锁文章

每日值得看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Meta 开源文本音频和音乐模型

继续其开源的生成式AI使命，Meta最新推出的产品是AudioCraft，这是一组文本到音频和音乐模型。AudioCraft包括三个模型：MusicGen、AudioGen和EnCodec。这些模型的命名非常贴切——MusicGen从文本提示中生成Meta拥有和经过授权的音乐，AudioGen从公共音频中训练生成音效，而改进版的EnCodec解码器能够以较少的伪像生成“更高质量”的音乐，据公司称。Meta表示，这使得AudioCraft成为“一站式代码库”满足生成音频需求：音乐、音效和压缩。
复制链接

扫一扫