谷歌推出MusicLM，这是一种可以从文本提示生成音乐的AI

没掉发的程序员

于 2023-02-28 11:35:24 发布

阅读量734

点赞数

分类专栏： IT前沿资讯文章标签：人工智能

IT前沿资讯专栏收录该内容

9 篇文章

订阅专栏

谷歌研究人员推出了MusicLM，这是一种可以从文本中生成高保真音乐的AI模型。MusicLM 通过将条件音乐生成过程建模为分层序列到序列建模问题，在几分钟内以恒定的 24 kHz 创建音乐。

根据研究论文，MusicLM在280，000小时的音乐数据集上接受了训练，以产生对复杂描述有意义的歌曲。研究人员还声称，他们的模型在音频质量和对文本描述的遵守方面都优于以前的系统。

MusicLM 样本，包括仅由一两个词（如旋律 techno）制作的五分钟片段，以及听起来像整首歌曲的 30 秒样本，由规定流派、氛围甚至特定乐器的段落长度描述组成。

MusicLM 还能够将一系列连续编写的描述转换为基于现有旋律的音乐故事或叙事，无论它们是吹口哨、哼唱、演唱还是在乐器上演奏。

人工智能生成的音乐有着悠久的历史，并被认为可以创作热门歌曲，并增强现场表演。在较新的版本中，使用AI图像生成引擎稳定扩散将书面提示转换为频谱图和音乐。

与文本到图像的机器学习相反，据称大型数据集对最近的进步做出了重大贡献，人工智能音乐存在与缺乏耦合音频和文本数据相关的障碍。例如，Stable Diffusion和OpenAI的DALL-E工具都引发了公众的兴趣。此外，音乐是沿着时间维度构建的，这给人工智能音乐生成带来了另一个困难。因此，与使用静止图像描述相比，使用简单的文本传达音乐曲目的意图要困难得多。

谷歌对MusicLM的态度比一些竞争对手对类似技术的态度更加谨慎，就像之前对这种形式的人工智能所做的那样。文章最后声明，“我们目前没有计划披露模型”。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。