Jukebox：音乐生成模型（论文详解）

最新推荐文章于 2024-10-16 10:00:00 发布

YannicKilcher

最新推荐文章于 2024-10-16 10:00:00 发布

阅读量366

点赞数 3

文章标签： bard midjourney AI写作 copilot stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141181047

版权

这篇论文介绍了一种名为Jukebox的音乐生成模型，它能生成包含歌词的音乐，并能模拟演唱，这在音乐生成领域是一个创新的突破。Jukebox 模型能够生成整首歌曲，并保持音乐的一致性，这非常新颖且令人惊叹。

论文的作者来自OpenAI，他们使用了一种名为VQ-VAE（矢量量化变分自编码器）的模型。VQ-VAE 类似于传统的变分自编码器，但它在编码器和解码器之间引入了一个矢量量化步骤。

在传统的变分自编码器中，输入数据被编码成一个隐藏表示，这个隐藏表示是一个向量。然后，这个向量被解码器用来重建原始数据。但在 VQ-VAE 中，编码器输出的向量被量化成一个离散的代码。这个代码然后被解码器用来重建原始数据。

通过这种量化，VQ-VAE 可以学习到更紧凑的隐藏表示，从而提高模型的生成能力。此外，由于代码是离散的，它可以更容易地存储和检索，这使得模型更容易进行训练和部署。

Jukebox 模型利用 VQ-VAE 生成了高质量的音乐，它能够生成包含歌词的音乐，并能模拟演唱。这表明 VQ-VAE 是一种很有潜力的音乐生成模型，它有望在未来推动音乐生成领域的发展。

这个音乐生成模型可以制作出质量和一致性都非常出色的完整歌曲。它可以根据流派、艺术家，甚至歌词进行调节。博客：https://openai.com/blog/jukebox/论文：https://cdn.openai.com/papers/jukebox.pdf代码：https://github.com/openai/jukebox/
摘要：我们介绍 Jukebox，一个在原始音频域中生成带有演唱的音乐的模型。我们使用多尺度 VQ-VAE 来压缩原始音频的长期语境以将其转换为离散代码，并使用自回归 Transformer 对这些代码进行建模。我们表明，在规模上，组合模型可以生成高达数分钟的高保真度和多样化的歌曲，并保持连贯性。我们可以根据艺术家和流派来引导音乐和演唱风格，并根据未对齐的歌词来使演唱更可控。我们发布了数千个非精选样本，以及模型权重和代码。

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YannicKilcher 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。