谷歌研究人员推出了MusicLM,这是一种可以从文本中生成高保真音乐的AI模型。MusicLM 通过将条件音乐生成过程建模为分层序列到序列建模问题,在几分钟内以恒定的 24 kHz 创建音乐。
根据研究论文,MusicLM在280,000小时的音乐数据集上接受了训练,以产生对复杂描述有意义的歌曲。研究人员还声称,他们的模型在音频质量和对文本描述的遵守方面都优于以前的系统。
MusicLM 样本,包括仅由一两个词(如旋律 techno)制作的五分钟片段,以及听起来像整首歌曲的 30 秒样本,由规定流派、氛围甚至特定乐器的段落长度描述组成。
MusicLM 还能够将一系列连续编写的描述转换为基于现有旋律的音乐故事或叙事,无论它们是吹口哨、哼唱、演唱还是在乐器上演奏。
人工智能生成的音乐有着悠久的历史,并被认为可以创作热门歌曲,并增强现场表演。在较新的版本中,使用AI图像生成引擎稳定扩散将书面提示转换为频谱图和音乐。
与文本到图像的机器学习相反,据称大型数据集对最近的进步做出了重大贡献,人工智能音乐存在与缺乏耦合音频和文本数据相关的障碍。例如,Stable Diffusion和OpenAI的DALL-E工具都引发了公众的兴趣。此外,音乐是沿着时间维度构建的,这给人工智能音乐生成带来了另一个困难。因此,与使用静止图像描述相比,使用简单的文本传达音乐曲目的意图要困难得多。
谷歌对MusicLM的态度比一些竞争对手对类似技术的态度更加谨慎,就像之前对这种形式的人工智能所做的那样。文章最后声明,“我们目前没有计划披露模型”。