Stable Audio Open 是一种开源的文本到音频模型,已经推出,允许用户从简单的文本提示中生成长达 47 秒的高质量音频数据。该模型非常适合创建鼓点、乐器即兴演奏、环境声音、拟音录音和其他用于音乐制作和声音设计的音频样本。用户还可以根据他们的自定义音频数据微调模型,使他们能够从自己的鼓录音中创建新的节拍。
与商业 Stable Audio 产品不同,Stable Audio 产品可生成长达 3 分钟的连贯音乐结构的完整曲目,而 Stable Audio Open 专注于音频样本、音效和制作元素。该模型使用来自 FreeSound 和 Free Music Archive 的音频数据进行训练,尊重创作者的权利。模型重量可在 Hugging Face 上找到,创作者鼓励用户提供反馈。
关键要点:
- Stable Audio Open 是一种开源文本到音频模型,可以生成长达 47 秒的音频样本和音效。
- 该模型允许用户创建各种声音,包括鼓点、乐器即兴演奏、环境声音和拟音录音。
- 与商业 Stable Audio 产品不同,Stable Audio Open 专注于音频样本和音效,并未针对完整的歌曲或人声进行优化。
- Stable Audio Open 的模型权重可在 Hugging Face 上找到,创作者鼓励声音设计师、音乐家、开发人员和音频爱好者提供反馈和探索。