深度学习的音乐创作：回顾

最新推荐文章于 2025-04-16 19:00:59 发布

愤怒敲代码的小强

最新推荐文章于 2025-04-16 19:00:59 发布

阅读量3k

点赞数 4

分类专栏：音乐生成深度学习机器学习文章标签：深度学习自然语言处理人工智能

原文链接：https://arxiv.org/pdf/2108.12290.pdf

版权

音乐生成同时被 3 个专栏收录

1 篇文章

订阅专栏

深度学习

1 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

基于深度学习的音乐创作：综述

原文链接：https://arxiv.org/pdf/2108.12290.pdf

摘要

创作复杂的艺术作品（例如音乐作品）需要展现真正的创造力，而创造力取决于与音乐语言层次结构相关的各种因素。音乐生成面临着算法方法，最近，深度学习模型正被用于其他领域，例如计算机视觉。在本文中，我们希望将基于 AI 的音乐创作模型与人类音乐创作和创作过程之间的现有关系置于背景中。我们概述了最近用于音乐创作的深度学习模型，并从理论的角度将这些模型与音乐创作过程进行了比较。我们试图通过分析当前深度学习模型生成具有创造力的音乐的能力或 AI 与人类作曲过程之间的相似性等来回答与此任务最相关的一些开放性问题。

1 简介

音乐通常被定义为具有某些确定模式的一系列音高或节奏，或两者兼有[1]。音乐创作（或生成）是创作或编写新音乐的过程。音乐创作术语也可以指原创音乐作品或作品 [1]。音乐创作需要创造力，这是人类独特的能力，可以理解和产生无限多的语言句子，其中大部分句子以前从未遇到或说过 [2]。这是在设计或提出基于 AI 的音乐创作算法时需要考虑的一个非常重要的方面。
更具体地说，音乐创作是音乐信息检索 (MIR) 领域的一个重要主题。它包括子任务，例如旋律生成、多轨或多乐器生成、风格转换或协调。本文将从近年来蓬勃发展的基于 AI 和 DL 的众多技术的角度来介绍这些方面。

1.1 从算法组合到深度学习

从 1980 年代开始，对基于计算机的音乐创作的兴趣从未停止增长。一些实验出现在 1980 年代初期，例如 David Cope 于 1983 年至 1989 年的音乐智能实验 (EMI) [3] 或 Iannis Xenakis 的 Analogiques A 和 B [4]。在 2000 年代后期，David Cope 也提出了将马尔可夫链与语法结合起来进行自动音乐创作，其他相关作品如 Koening [5] 的 Project1 (PR1) 诞生了。这些技术可以归入算法音乐创作领域，这是一种通过形式化方法进行创作的方式 [6] [7]。这种类型的写作包括一个受控程序，该程序基于必须以固定顺序遵循的数学指令。算法组合中有几种方法，例如马尔可夫模型、生成语法、元胞自动机、遗传算法、转换网络或 Caos 理论 [8]。有时，这些技术和其他概率方法与深度神经网络相结合，以调节它们或帮助它们更好地模拟音乐，DeepBach [9] 就是这种情况。这些模型可以生成和协调不同风格的旋律，但这些模型缺乏泛化能力以及必须手工完成的基于规则的定义，与基于深度学习的模型相比，这些方法的功能和通用性较差。
从 1980 年代到 2000 年代初，第一批尝试用神经网络建模音乐的作品诞生了 [10] [11] [12] [13]。近年来，随着深度学习 (DL) 的发展，许多研究尝试使用深度神经网络 (NN) 对音乐进行建模。用于音乐生成的 DL 模型通常使用 NN 架构，这些架构已被证明在计算机视觉或自然语言处理 (NLP) 等其他领域表现良好。在这些领域中还可以使用预训练的模型，可用于音乐生成。这称为迁移学习 [14]。一些 NN 技术和架构将在本文后面展示。今天的音乐创作正在从大规模 NLP 应用程序（例如基于 Transformer 的模型）中获取输入表示和 NN 架构，这些应用程序在此任务中表现出非常好的性能。这是因为音乐可以被理解为一种语言，其中每种风格或音乐流派都有自己的规则。

1.2 深度学习音乐创作的神经网络架构

首先，我们将概述迄今为止在音乐创作任务中提供最佳结果的最广泛使用的 NN 架构。音乐创作任务中最常用的 NN 架构是生成模型，例如变分自动编码器 (VAE) 或生成对抗网络 (GAN)，以及基于 NLP 的模型，例如长短期记忆 (LSTM) 或转换器。以下是这些模型的概述。

1.2.1 变分自编码器 (VAE)

原始的 VAE 模型 [15] 使用编码器-解码器架构通过重构输入来产生潜在空间（见图 1a）。潜在空间是压缩数据的多维空间，其中最相似的元素彼此最接近。在 VAE 中，编码器近似后验，解码器参数化似然。后验和似然近似由分别具有 λ 和 θ 参数的 NN 参数化用于编码器和解码器。后验推断是通过最大化证据下界 (ELBO) 来最小化编码器或近似后验与真实后验之间的 Kullback-Leiber (KL) 散度来完成的。梯度是用所谓的重新参数化技巧计算的。原始 VAE 模型有多种变体，例如 β-VAE [16]，它在重构损失中添加了惩罚项 β，以改善潜在空间分布。在图。在图 1a 中，我们展示了一般的 VAE 架构。基于 VAE 的音乐创作 DL 模型的一个例子是 MusicVAE [17]，我们将在本文的进一步部分中进行描述。

1.2.2 生成对抗网络（GAN）

GAN [18] 是由两个 NN 组成的生成模型：生成器 G 和判别器 D。生成器在输入数据上学习分布 pg 进行训练是为了让判别器最大化将正确标签分配给训练样本和生成器生成的样本。这种训练思想可以理解为 D 和 G 遵循 Goodfellow 等人提出的两人极小极大博弈。 [18] 描述。在图。在图 1b 中，我们展示了一般的 GAN 架构。
生成器和鉴别器可以由不同的 NN 层组成，例如多层感知器 (MLP) [19]、LSTM [20] 或卷积神经网络 (CNN) [21] [22]。

1.2.3 Transformers

Transformers [23] 目前正在 NLP 应用中使用，因为它们不仅在 NLP 中而且在计算机视觉模型中表现良好。Transformer 可以用作自回归模型，例如 LSTM，允许它们用于生成任务。 Transformers 背后的基本思想是注意力机制。 Vaswani 等人提出的原始注意力机制有几种变体。 [23] 已用于音乐创作任务 [24]。注意层与前馈层的结合导致了Transformer的Encoder和Decoder的形成，这不同于同样由Encoder和Decoder组成的纯AutoEncoder模型。Transformer 使用标记进行训练，标记是输入的结构化表示。在图。图 1c 展示了通用的 Transformer 架构。

1.3 深度学习音乐创作的挑战

在使用 DL 进行音乐创作时，从挑战的角度来看，有不同的观点让我们提出与该领域中使用的输入表示和 DL 模型相关的问题，以及实际最先进方法的输出质量或者研究人员测量生成音乐质量的方式。在这篇评论中，我们问自己以下涉及创作过程和输出的问题：当前的 DL 模型是否能够生成具有一定创造力的音乐？使用 DL 进行音乐创作的最佳 NN 架构是什么？端到端方法能否生成完整的结构化音乐片段？用 DL 创作的作品只是对输入的模仿，还是 NN 可以生成训练数据中不存在的风格的新音乐？神经网络是否应该遵循与人类相同的逻辑和过程来创作音乐？用于音乐生成的 DL 模型需要多少数据？当前的评估方法是否足以比较和衡量创作音乐的创造力？
在这里插入图片描述
Figure 1: a) VAE [15] b) GAN [18] and c) Transformer general architecture. Reproduced from [23].

为了回答这些问题，我们从获得最终作曲和 DL 模型输出所遵循的过程的角度来处理音乐作曲或生成，即人类作曲过程与使用深度学习的音乐生成过程之间的比较和生成的音乐所呈现的艺术和创作特征。我们还通过深度学习分析了最近最先进的音乐作曲模型，以显示这些模型提供的结果（主题、完整的作曲…）。分析的另一个重要方面是这些模型用于生成音乐的输入表示，以了解这些表示是否适合创作音乐。这让我们对如何改进这些模型有了一些见解，如果这些神经网络架构足够强大，可以创作具有一定创造力的新音乐，以及应该在音乐创作与深度学习中完成的方向和未来工作。

1.4 论文结构

在这篇评论中，我们从作曲过程和生成的输出类型对音乐作曲任务进行了分析，我们不涉及表演或合成任务。此篇文章的结构如下。第 2 节介绍了音乐创作过程和音乐基本原理的一般视图。在第 3 节中，我们从旋律创作的角度概述了最先进的方法，并描述了经过测试用于创作结构化音乐的 DL 模型。在第 4 节中，我们描述了生成多轨或多乐器音乐的 DL 模型，即为不止一种乐器制作的音乐。在第 5 节中，我们展示了通常用于评估音乐生成模型输出的不同方法和指标。在第 6 节中，我们通过分析在第 3 节和第 4 节中描述的模型来描述音乐生成中仍然存在的开放性问题。最后，在第 7 节中，我们揭示了在研究中仍然存在的未来工作和挑战。

2 音乐创作过程

与书面语言一样，音乐创作过程是一个复杂的过程，取决于大量决策[25]。在音乐领域，这个过程 [26] 取决于我们正在使用的音乐风格。例如，在古典音乐中很常见的是从一两个小节开始，称为motif，然后将其发展为旋律或乐句，而在流行音乐或爵士乐等风格中，更常见的是使用和弦并在其之前创作或即兴创作旋律。不管我们创作的音乐风格如何，当作曲家开始创作一段音乐时，背后都有一些基本的旋律或和声理念。从古典音乐的角度来看，这个想法（或主题）是由作曲家开发的，以构建遵循特定和声进行的旋律或乐句，然后将这些乐句分为多个部分。每个部分都有自己的用途，因此可以用不同的键编写，并且其乐句通常遵循与其他部分不同的和声进行。通常，乐曲有旋律部分和伴奏部分。一首乐曲的旋律部分可以用不同的乐器演奏，其频率范围可能相似也可能不同，而和声部分则赋予乐曲一种深沉而结构化的感觉。不一定在同一频率范围内的仪器与仪器和编排技术相结合（参见第 3.2 节）。这些元素在音乐创作中至关重要，也是定义音乐风格或流派的重要关键。音乐，有两个维度，时间维度和和声维度。时间维度由音符持续时间或节奏表示，是该轴的最低级别。在此维度中，音符可以以称为条的单位进行分组或测量，即有序的音符组。另一个维度，和声，与音符值或音高有关。如果我们想到一个图像，时间维度是横轴，和谐维度是纵轴。和声也有时间演变，但这并没有体现在乐谱中。有一种非常常见的基于软件的音乐表示，称为钢琴卷（piano-roll），遵循此逻辑。
音乐时间维度的结构是低级单元，即音符，这些单元分组在形成（主题）的小节中。在时间高级维度中，我们可以找到由持续八个或更多小节的短语组成的部分（这取决于风格和作曲家）。和声维度最低级是音符级，然后不同乐器演奏的音符的叠加给我们和弦。和弦的序列称为和弦进行，它们与乐曲相关，并且它们在时间维度上也具有相关性。话虽如此，我们可以将音乐视为由短期和长期关系组成的复杂语言模型。这些关系延伸到两个维度，即与音乐结构相关的时间维度和与音符或音高和和弦相关的和声维度，即和声。

从符号音乐的产生和分析的角度来看，基于Walton[27]的思想，基本的音乐原则或元素是（见图2）：
和声构成和弦进行的和弦是音符的叠加。音符级别可以被认为是和声的最低级别，其次是和弦级别。最高级别可以认为是通常属于某个调式的和声进行。
音乐形式或结构 它是音乐呈现的高层结构，与时间维度有关。乐曲的最小部分是在乐句中展开的主题，乐句的组合形成一个部分。音乐中的部分根据音乐风格进行排序，例如一些流行歌曲（也表示为 ABCBA）的 intro-verse-chorus-verse-outro 或奏鸣曲的 exposition-development recapitulation 或 ABA。可以具有不同比例和模式的部分的串联为我们提供了整个构图。
旋律和质感 音乐术语中的纹理是指旋律、节奏和和声内容，必须在作品中组合以形成音乐作品。根据同时演奏的音符，音乐可以是单音或复音，也可以是同音或异音，具体取决于旋律（是否有伴奏）。
检测和编排 这些是考虑到音乐作品中乐器或曲目数量的音乐技巧。 Instrumentation 与组成音乐作品的乐器组合有关，而 Orchestration 是指将旋律和伴奏分配给组成确定音乐作品的不同乐器。在录音或基于软件的音乐表现中，乐器被组织成音轨。每首曲目都包含在单个乐器上演奏的音符集合 [28]。因此，我们可以将具有多个乐器的乐曲称为多轨，它是指包含两个或多个音轨的信息，其中每个音轨由单个乐器播放。每个音轨可以包含一个音符或多个同时发声的音符，分别导致单音音轨和复音音轨。

Figure 2: a) General music composition scheme and b) an example of the beginning of Beethoven’s 5th symphony with music levels or categories.

音乐类别在它们之间是相关的。和声与结构有关，因为一个部分通常以相同的音阶和模式播放。部分之间有节奏，也可以有改变乐曲音阶的调制。质地和乐器与音色特征有关，它们的关系基于并非所有乐器都能演奏相同旋律的事实。一个例子是，当我们的旋律包含许多装饰元素时，不能用确定的乐器系列演奏（因为每种乐器技术可能性的事实或造型师的原因）。
另一个重要的音乐属性是动态，但它们与表演有关，而不是与乐曲本身有关，因此我们不会在本评论中介绍它们。在图 2 中，我们展示了我们在本评论中涵盖的音乐创作过程的各个方面，并描述了类别与讨论每个主题的论文部分之间的关系。

3 旋律生成

旋律是具有特定节奏的以美学方式排列的音符序列。旋律可以是单音的或复音的。单音是指在一个时间步中只播放一个音符的旋律，而在复调旋律中，在同一时间步中播放了多个音符。旋律生成是音乐创作的重要组成部分，并且已经尝试使用算法组合和多种神经网络架构，包括生成模型（如 VAE 或 GAN）、用于自回归任务（如 LSTM）的循环神经网络（RNN）、神经自回归分布估计器 (NADE) [29] 或用于自然语言处理的当前模型，如 Transformer [23]。在图 3 中，我们展示了具有音乐基本原理的方案，该方案具有旋律生成模型的类似输出的乐谱。
在这里插入图片描述
Figure 3: Scheme of an output-like score of melody generation models.

3.1 旋律生成的深度学习模型：从主题到旋律短语

根据我们领域的音乐类型，人类创作过程通常从创建主题或和弦进行开始，然后扩展为乐句或旋律。当涉及到用于音乐生成的 DL 方法时，有几种模型可以生成短期音符序列。 2016 年，第一个 DL 模型尝试使用循环神经网络 (RNN) 和语义模型（例如单元选择 [30]）生成短旋律。
这些模型适用于短序列，因此随着新神经网络的诞生，人们对创造完整旋律的兴趣也在增长。从这些最初的作品中衍生出来，为了创建更长的序列（或旋律），出现了将 NN 与概率方法相结合的其他模型。一个例子是 2016 年发布的谷歌 Magenta Melody RNN 模型 [31]、2017 年发布的 Anticipation-RNN [32] 或 DeepBach [9]。DeepBach 被认为是当前最先进的模型之一。音乐生成，因为它能够生成巴赫风格的 4 声部合唱。
然而，这些方法不能从头开始产生具有高度创造力的新旋律。为了改进生成任务，研究人员选择了生成模型来进行音乐创作。事实上，如今在 2 到 16 小节之间生成主题或短旋律的最佳模型之一是 MusicVAE2 [17]，它于 2018 年发布。 MusicVAE 是基于 VAE [15] 的音乐生成模型。使用此模型，可以通过在潜在空间中进行插值来生成音乐。该模型使用来自 Lakh MIDI 数据集 (LMD)3 [33] 的大约 150 万首歌曲进行训练，它可以为几乎 3 种乐器生成和弦旋律：旋律、贝斯和鼓。在 MusicVAE 模型的创建以及其他领域新 NN 架构的诞生之后，可以创建更长旋律的新的基于 DL 的模型的必要性和可用性不断增长。出现了基于 Transformer 的新模型，例如 2018 年的 Music Transformer [24]，或者使用预训练的 Transformer 的模型，例如 OpenAI [34] 在 2019 年提出的 GPT-2（如 MuseNet）。这些基于 Transformer 的模型，例如 Music Transformer，可以生成更长的旋律并继续给定的序列，但是在几小节或几秒钟之后，旋律最终会变得有点随机，也就是说，有些音符和和声不遵循乐曲的音乐感。
为了克服这个问题并开发可以生成更长序列的模型，而不会失去先前小节中生成的音乐或主要主题的感觉，新模型于 2020 年和 2021 年诞生，作为 VAE、Transformer或其他神经网络或机器的组合学习算法。这些模型的一些例子是 TransformerVAE [35] 和 PianoTree [36]。这些模型即使在和弦音乐中也表现良好，并且可以生成乐句。最新发布的生成整个短语的模型之一是 Mittal 等人在 2021 年提出的模型。 [37] 基于去噪扩散概率模型 (DDPM) [38]，这是新的生成模型，通过学习将扩散过程从数据反转为高斯噪声来生成高质量的样本。该模型使用 MusicVAE 2-bar 模型，然后训练一个扩散模型来捕获 k = 32 的 VAE 潜在变量 zk 之间的时间关系，这是 32 个潜在变量，可以生成 64 个小节（每个潜在变量 2 个小节）。尽管可以生成更长的和弦旋律，但它们不遵循中心主题，因此往往会失去某个方向的感觉。

3.2 结构意识

正如我们在第 1 节中提到的，音乐是一种结构化语言。一旦旋律被创造出来，它们必须被组合成更大的部分（见图 2），这些部分在乐曲中发挥着重要作用。这些部分有不同的名称，具体取决于音乐风格，例如流行或陷阱流派的介绍、合唱或诗歌，以及古典奏鸣曲的阐述、发展或重演。例如，部分也可以用大写字母命名，歌曲结构可以表示为 ABAB。用结构生成音乐是深度学习音乐创作中最困难的任务之一，因为结构意味着节奏、和弦进行和旋律的审美感，与桥梁和节奏相结合 [39]。
在深度学习中，有一些模型试图通过强加具有自相似性约束的高级结构来生成结构化音乐。 Lattner 等人提出的模型就是一个例子。在 2018 年 [39] 中，它使用Convolutional Restricted Boltzmann Machine (C-RBM) 生成音乐，并使用自相似矩阵 [40] 进行自相似约束，以将乐曲的结构强加于模板。这种强加结构模板的方法类似于作曲家在创作音乐时遵循的作曲过程，并且产生的乐曲遵循强加的结构模板。尽管新的 DL 模型趋向于端到端，并且正在发布有关对具有结构的音乐进行建模的新研究 [41]，但还没有可以自行生成结构化音乐的 DL 模型，即无需借助传递给神经网络的模板或高级结构信息。

3.3 和声和旋律调节

在使用 DL 的音乐创作中，有一项任务是协调给定的旋律，这与从头开始创作和弦旋律的任务不同。一方面，如果我们使用 DL 模型从头开始分析创建的旋律的和声，我们会发现使用 DL 生成的音乐结构不佳，因为它没有组成不同的部分，也没有在各部分之间（起始和结束的小节位置）编写变化节奏或桥段。尽管如此，由构成复调旋律的基于 Transformer 的模型生成的和声在生成的乐曲 [24] 的第一小节中是连贯的，因为它遵循某个调式。我们必须在此强调，这些旋律是为钢琴而写的，这与多乐器音乐不同，后者带来了额外的挑战，例如为每种乐器生成合适的旋律或伴奏，或者决定由哪些乐器组成合奏（见第 4 节）。
另一方面，旋律和声的任务包括产生伴随给定旋律的和声。伴奏可以是和弦伴奏，不分乐器或和弦所在的曲目，也可以是多轨伴奏，每个和弦中的音符都属于特定乐器。第一个和声模型使用的 HMM，但这些模型被 RNN 改进替换。一些模型预测和弦函数 [42] 和其他模型匹配给定旋律的和弦伴奏 [43]。关于不同轨道伴奏的生成，已经提出了基于 GAN 的模型，该模型实现了功能谱的伴奏。 2018 年，提出了一种称为 MICA [44] 的多乐器协同编曲模型及其在 2020 年的改进 MSMICA [45]，以生成多轨伴奏。还有一个称为Bach Doodle [46] 的模型，它使用 Coconet [47] 为给定的巴赫风格的旋律生成伴奏。这些模型的和声质量提高了从头开始创建和弦旋律的模型所产生的和声，因为该模型专注于旋律内容来执行和声，这比从头开始生成整个和谐的乐曲所面临的挑战要小。
在使用条件映射的 DL 音乐生成中还有更多任务，例如根据和弦进行生成旋律，这是人类遵循的一种作曲方式。该任务已通过变分自动编码器 (VAE) [48]、生成对抗网络或基于 GAN 的模型 [49]、[50]4 和端到端模型 [44] 解决。其他模型执行完整的作曲过程，例如 ChordAL [51]。该模型生成和弦，然后将获得的和弦进行发送到旋律生成器，并将最终输出发送到音乐风格处理器。像 BebopNet [50] 这样的模型从爵士和弦中生成旋律，因为这种风格在和声环境中提出了额外的挑战。

3.4 风格转换的流派转换

在音乐中，一种风格或流派被定义为从音乐理论到声音设计的各种特征的复杂组合。这些特征包括音色、作曲过程、乐曲中使用的乐器或合成音乐的效果。由于存在许多音乐类型，并且其中一些类型的数据集不足，因此通常使用风格转换技术，通过改变现有音符的音高或添加适合我们想要转换音乐的风格的新乐器，将确定风格的音乐转换为其他风格。
在基于计算机的音乐创作中，在音乐中执行风格迁移的最常见技术是获得风格的嵌入，并使用该嵌入或特征向量来生成新音乐。神经网络中的风格转移 [52] 是由 Gatys 等人于 2016 年引入的。将风格特征应用到另一幅图像中的图像的想法。2018 年使用风格迁移生成符号音乐的首批研究之一是 MIDI-VAE [53]。 MIDI-VAE 将潜在空间中的风格编码为音高、动态和乐器特征的组合，以生成和弦音乐。风格迁移也可以通过迁移学习 [14] 来实现。第一个使用迁移学习进行风格迁移的工作是 Hung 等人提出的爵士乐循环 VAE 模型。 [54] 在 2019 年。迁移学习是通过在源数据集上训练模型，然后在目标数据集上微调生成的模型参数来完成的，该参数可以与源数据集采用不同的风格。该模型表明，使用迁移学习将确定风格的音乐作品转换为另一种风格是一个很好的解决方案，因为它不仅可以用于将现有作品转换为新流派，还可以用于从头开始创作现在正在使用的音乐作品数据集中不存在。这方面的一个例子可能是使用经过大型流行数据集训练的 NN，例如 Lakh MIDI 数据集 (LMD) [33]，并使用此预训练模型通过迁移学习生成都市音乐。
其他音乐特征，如和声和质感（见图 2）也被用作风格转移特征 [55]、[36]、[56]。还研究了融合流派模型，其中混合不同风格以生成未知风格的音乐 [57]。

4 器乐编排

正如我们在第 2 节中提到的，乐器和管弦乐是正在创作的音乐流派的基本要素，并且可以通过使用特定乐器或他们的作品的编排方式来代表每个作曲家的特征签名。一个例子是贝多芬在他的交响乐中使用的管弦乐改变了音乐的创作方式 [58]。乐器是研究如何组合不同数量的相似或不同乐器以创建合奏编排是选择和组合相似或不同评分的部分 [59]。由此，我们可以将乐器与乐曲的颜色联系起来，而将编排与作品的美学方面联系起来。乐器和编排对我们感知音乐的方式以及音乐的情感部分有着巨大的影响，但是，尽管它们代表了音乐的基本部分，但情感超出了这项工作的范围。

4.1 从和弦到多乐器音乐生成

在基于计算机的音乐创作中，我们可以在多乐器或多轨音乐中对乐器和编排概念进行分组。然而，用于多仪器生成的基于 DL 的模型并不完全适用于这些概念。基于多乐器 DL 的模型为不止一种乐器生成和弦音乐，但是生成的音乐是否遵循连贯的和声进行？由此产生的编曲在乐器和编排方面是否一致，还是基于 DL 的模型只是生成多乐器音乐而不考虑每种乐器或编曲的颜色？在第 3 节中，我们展示了和弦音乐生成可以创作具有一定和声感的音乐，但在面对多乐器音乐时，需要考虑的最重要方面之一是乐器和合奏的颜色。决定合奏中有多少乐器和哪些乐器，以及如何在它们之间划分旋律和伴奏，在 Music Generation with DL 中还没有解决的问题。近年来，通过构建从头开始生成音乐的 DL 模型，这些模型可以是人类可以选择合奏乐器的交互式模型 [28]，从而面临这一挑战。还有一些模型可以修复乐器或酒吧。我们描述了这些模型并回答了第 4.2 节中暴露的问题。在图 4 中，我们展示了多乐器生成模型的类似输出乐谱的音乐基本原理的方案。
在这里插入图片描述
Figure 4: Scheme of an output-like score of multi-instrument generation models.

4.2 多轨乐器生成

最近第一个可以生成多轨音乐的模型被提出。在多轨音乐生成之前，一些模型会为给定的旋律或和弦生成鼓音轨。这些模型的一个例子是 Kang 等人在 2012 年提出的模型。 [60] 伴随着带有自动鼓发生器的给定音阶的旋律。后来，在 2017 年 Chu 等人。 [61] 使用分层 RNN 来生成有鼓声的流行音乐。
音乐生成中最常用的架构之一是生成模型，例如 GAN 和 VAE。多轨音乐生成的第一个考虑和最著名的模型是 MuseGAN [62]，于 2017 年提出。然后，更多的模型遵循多乐器生成任务 [63]、[64] 以及 2020 年晚些时候基于的其他模型发布了诸如 MusAE [65] 之类的自动编码器。最近用于生成音乐的另一大组 NN 架构是 Transformer。使用 Transformers 生成音乐的最著名模型是用于钢琴复调音乐生成的 Music Transformer [24]。 2019 年，多纳休等人。 [66] 提出了用于多轨音乐生成的 LakhNES，并且在 2020 年，Ens 等人。提出了一种条件多轨音乐生成模型 (MMM) [28]，该模型基于 LakhNES，并通过将多个轨道连接成单个序列来改进先前模型的标记表示。该模型使用 MultiInstrument 和 BarFill 表示，如图 5 所示。在图 5 中，我们展示了 MultiInstrument 表示，其中包含 MMM 模型用于生成音乐的标记，以及用于修复的 BarFill 表示，即是，生成一个或几个小节，但保留组合的其余部分。
从作曲过程的角度来看，这些模型不会编排或乐器化，而是从头开始或通过修复来创作音乐。这意味着这些模型不会选择乐器的数量，也不会生成与所选乐器相关的高质量旋律或伴奏内容。例如，MMM 模型为预定义的乐器生成旋律内容，该内容遵循乐器的音色特征，但是在保留其他音轨的同时修复或重新创建单个乐器时，有时很难遵循其他乐器所在的调组成。这使我们得出结论，音乐生成的多乐器模型专注于端到端的生成，但在乐器或编排方面仍然不能很好的工作，因为它们仍然无法决定生成的乐曲中乐器的数量的音乐。他们为他们接受过训练的合奏生成音乐，例如 LakhNES [66]，或者他们使用预定义的曲目来生成每个曲目的内容 [28]。最近的模型，如 MMM，在多乐器生成方面开启了人类和人工智能之间的交互，这将允许更好地跟踪人类的作曲过程，从而改善用多种乐器生成的音乐。
在这里插入图片描述
Figure 5: MMM token representations reproduced from [28]

5 评估和指标

音乐生成中的评估可以根据测量DL模式输出的方式进行划分。姬等人。 [67]区分从客观角度和主观角度的评价。在音乐中，有必要从主观的角度来衡量结果，因为它是一种评估类型，它告诉我们与人类创造力相比，模型带来了多少创造力。有时，计算模型结果指标的客观评估可以让我们了解这些结果的质量，但很难找到一种方法将其与创造力的概念联系起来。在本节中，我们将展示最先进的模型如何从客观和主观的角度衡量其结果的质量。

5.1 客观评价

客观评估使用一些数字度量来衡量模型的性能及其输出的质量。在音乐生成中，存在比较针对不同目的训练的模型和使用不同数据集训练的模型的问题，因此我们描述了最先进模型中最常用的指标。姬等人。 [67] 区分模型度量和音乐度量或描述性统计，以及其他方法，如模式重复 [68] 或抄袭检测 [9]。
当您想要衡量模型的性能时，根据用于生成音乐的 DL 模型，最常用的指标是： the loss, the perplexity, the BLEU score, the precision §, recall ® 或 F-score (F1).。通常，这些指标用于比较为相同目的构建的不同 DL 模型。
Loss通常用于从数学角度表示模型的输入和输出之间的差异，而另一方面，perplexity告诉我们一个模型具有的泛化能力，这更多地与模型如何生成有关新的音乐。例如，Music Transformer [24] 使用损失和困惑度来比较不同 Transformer 架构之间的输出以验证模型，TonicNet [69] 仅将损失用于相同目的，MusicVAE [17] 仅使用一种指示模型具有的重建质量的度量，但不使用任何度量标准来比较其他 DL 音乐生成模型。
对于与音乐特别相关的指标，即考虑音乐描述符的指标，我们可以发现这些指标有助于衡量作品的质量。根据 Ji 等人的说法。 [67] 这些指标可以分为四类：音高相关、节奏相关、和声相关和风格转移相关。音高相关的指标 [67]，例如音阶一致性、音调垃圾邮件、空条的比率或使用的音级数量，是一般测量音高属性的指标。与节奏相关的指标考虑了音符的持续时间或模式，例如节奏变化、同时出现的三个或四个音符的数量或重复音高的持续时间。与和声相关的指标测量和弦熵、距离或覆盖范围。这三个度量类别被 MuseGAN [62]、C-RNN-GAN [70] 或 JazzGAN [49] 等模型使用。最后，与样式迁移相关的技术有助于了解生成与所需样式之间的距离。其中包括风格适合、内容保存或转移强度[71]。

5.2 主观评价

主观的观点决定了所产生的音乐在创造性和新颖性方面的表现如何，即所产生的音乐在多大程度上可以被认为是艺术。虽然艺术涉及创造力和美学，但没有办法定义艺术。 Sternberg 和 Kaufman [72] 将创造力定义为做出既新颖又适合任务的贡献的能力，通常带有附加组件，例如质量、令人惊讶或有用。创造力需要更深入地了解音乐知识的性质和用途。根据 Ji 等人的说法。 [67] 音乐质量的定量评估与人类判断之间缺乏相关性，这意味着音乐生成模型也必须从主观角度进行评估，这将使我们对模型的创造力有所了解。主观评估中最常用的方法是听力测试，它通常由人类试图区分机器生成的音乐或人工创作的音乐组成。这种方法被称为图灵测试，用于测试 DeepBach [9]。在这个模型中，属于不同音乐体验组的 1.272 人参加了测试。这个测试表明模型越复杂，它得到的输出就越好。 MusicVAE [17] 还进行了听力测试和 Kruskal Wallis H 测试以验证模型的质量，得出的结论是该模型在分层解码器下表现更好。 MuseGAN [62] 还对 144 名用户进行了听力测试，将 144 名用户分为不同音乐体验的组，但用户必须在 1 到 5 的范围内投票的预定义问题：和声、节奏、结构，连贯性和整体评级。
其他聆听方法需要对生成的音乐进行评分，这称为并排评分 [67]。根据模型的生成目标，还可以向听众提出一些关于模型的创造力或生成的作品的自然性等问题。在听力测试中要记住的一件重要事情是为测试选择的人群的可变性（如果听众是具有音乐理论基础知识的音乐学生，如果他们是业余爱好者，因此他们没有任何音乐知识或如果他们是专业音乐家）。听众必须有相同的刺激，也必须听相同的乐曲，并参考（如果适用）相同的人工创作的乐曲。还必须考虑听觉疲劳，因为如果长时间收听类似的样本，听众可能会产生偏差。
话虽如此，我们可以得出结论，在音乐生成方面，听力测试是必不可少的，因为它可以提供模型质量的反馈，并且它们也可以是一种寻找更好的 NN 架构或正在研究的 DL 模型的方法。

6 讨论

我们已经证明音乐是一种结构化的语言模型，具有时间和谐波的短期和长期关系，需要对其所有见解进行深入理解才能建模。除了音乐中存在的各种流派和子流派以及可用于创作音乐作品的大量作曲策略之外，这使得使用深度学习的音乐生成领域成为一个不断发展和具有挑战性的领域。在描述了音乐创作过程和最近在 DL 中用于音乐生成的工作之后，我们现在将解决 1.3 节中提出的问题。

当前的 DL 模型是否能够生成具有一定创造力的音乐？

第一个使用 DL 生成音乐的模型使用 RNN，例如 LSTM。这些模型可以生成笔记，但在生成长期序列时失败了。这是因为这些神经网络无法处理音乐生成所需的长期序列。为了解决这个问题并能够通过插入两个现有的主题或从分布中采样来生成短主题，MusicVAE 应运而生。但是这里出现了一些问题：现有主题之间的插值是否会产生在同一乐曲中有意义的高质量主题？如果我们使用 MusicVAE 来创建一个简短的主题，我们可以获得非常好的结果，但是如果我们使用这种模型来生成与输入相似的更长的短语或主题，这些插值可能会输出具有美感的主题，但有时确实如此不遵循输入具有的任何节奏或音符方向（上升或下降）模式。因此，这些插值通常无法生成高质量的图案，因为模型不了解节奏模式和音符方向。此外，和弦进行通常确实有倒位，古典音乐中的规则或流行、爵士或城市音乐中的风格限制决定了每个和弦如何跟随另一个和弦。如果我们分析 DL 方法生成的复调旋律，就和声内容而言缺乏质量，因为经过训练生成音乐的神经网络无法理解音乐语言中存在的所有这些复杂性，或者因为这些信息应该被传递到 NN 作为输入的一部分，例如作为标记。

使用 DL 进行音乐创作的最佳 NN 架构是什么？

Transformer 架构已与不同的注意力机制一起使用，允许对更长的序列进行建模。这方面的一个例子是使用 GPT-2 生成多轨音乐的 MMM 模型 [28] 的成功。尽管该模型使用预训练的 Transformer 进行文本生成，但它在和声和节奏方面生成了连贯的音乐。其他架构使用生成网络，例如 GAN 或 VAE，以及这些架构与 Transformer 的组合。带来这些模型的力量是提取高级音乐属性的可能性，例如在潜在空间中组织的风格和低级特征。然后使用该潜在空间在这些特征和属性之间进行插值，以根据现有作品和音乐风格生成新音乐。
分析过去几年用于通过 DL 生成音乐的 NN 模型和架构，没有一种特定的 NN 架构在此方面表现更好，因为可用于构建音乐生成模型的最佳 NN 架构将取决于在我们想要获得的输出上。尽管如此，正如该领域的最新作品所展示的那样，Transformers 和 Generative 模型正在成为此时此刻的最佳替代方案。两种模型的组合也是执行音乐生成 [35] 的一个很好的选择，尽管它取决于我们想要生成的输出，有时最好的解决方案来自 DL 与概率方法的组合。另一个需要考虑的方面是，音乐生成通常需要具有大量参数和数据的模型。我们可以通过将预先训练的模型作为我们在前几节中描述的一些最先进的模型来解决这个问题，然后对另一个 NN 架构进行微调。另一种选择是拥有一个预先训练的潜在空间，该空间是通过使用 MusicVAE 提出的庞大数据集训练一个大模型而生成的，然后利用预先训练的潜在空间训练一个具有较少数据的较小神经网络，以调节MidiMe 提出的音乐作品风格[73]。

端到端方法能否生成完整的结构化音乐片段？

正如我们在 3.2 节中所描述的，现在有基于结构模板的模型可以生成结构化音乐 [39]，但还没有一种端到端的方法可以创作结构化音乐作品。人类作曲家遵循的音乐创作过程类似于这种基于模板的方法。在不久的将来，人工智能很可能可以从头开始创作结构化音乐，但这里的问题是，用于音乐生成的人工智能模型是否将用于从头开始创作整个音乐作品，或者这些模型作为辅助工具是否更有用作曲家，因此是人类与人工智能之间的互动。

用 DL 创作的作品只是对输入的模仿，还是 NN 可以生成训练数据中不存在的风格的新音乐？

在训练 DL 模型时，输入中传递给 NN 的一些信息可以在输出中不做任何修改的情况下呈现。即便如此，MusicVAE [17] 和其他用于音乐生成的 DL 模型表明，可以在不模仿现有音乐或抄袭的情况下创作新音乐。模仿输入可能是一种过度拟合的情况，这绝不是 DL 模型的目标。还应该考虑到，由于一首音乐中可能存在各种各样的乐器、音调、节奏或和弦，因此很难在音乐的生成过程中进行剽窃。

神经网络是否应该遵循与人类相同的逻辑和过程来创作音乐？

我们展示了研究人员开始构建可以生成和弦旋律的模型，但这些旋律在几小节后没有遵循任何方向。当 MusicVAE 出现时，可以生成高质量的主题，这鼓励了新的研究来生成带有过去时间步长信息的旋律。扩散模型 [37] 等新模型正在使用这种预先训练的模型来生成更长的序列，让旋律遵循模式或方向。我们还展示了一些模型可以通过用和弦进行调节来生成旋律，这是一种以流行等风格创作音乐的方式。将人类的作曲方式与用于生成音乐的 DL 架构进行比较，我们可以看到这两个过程的一些相似之处，特别是在自回归模型中。自回归 (AR) 包括从过去事件中预测未来值。一些深度学习方法是自回归的，而新模型试图通过获取过去时间步长的信息来生成更长的序列这一事实类似于人类创作古典音乐的过程。

用于音乐生成的 DL 模型需要多少数据？

如果我们查看最先进的模型，可以部分回答这个问题。 MusicVAE 使用具有 370 万首旋律、460 万个鼓模式和 11.6 万个三重奏的 LMD [33]。 Music Transformer 仅使用 Piano-e-Competition 中的 1100 首钢琴曲子来训练模型。其他模型（例如 MMM）采用 GPT-2，这是一种具有大量文本数据的预训练 Transformer。这让我们肯定，用于音乐生成的 DL 模型确实需要大量数据，特别是在训练生成模型或 Transformers 时，但采用预训练模型并执行迁移学习也是一个很好的解决方案，专门针对未表示的音乐流派和子流派在用于符号音乐生成的实际数据集中。

当前的评估方法是否足以比较和衡量创作音乐的创造力？

正如我们在第 5 节中所描述的，有两种评价类别：客观评价和主观评价。现有方法之间的客观评价指标相似，但缺乏通用的主观评价方法。听力测试是最常用的主观评估方法，但有时仅要求区分基于计算机或人工作曲的图灵测试不足以了解神经网络创建的作曲的所有特征。这个问题的解决方案是询问与图 1 中显示的音乐特征的质量有关的一般问题。 2 与 MuseGAN 提出的一样，并在 DL 模型中使用相同的问题和相同的评分方法来设置通用的主观评价方法。

7 结论和未来工作

在本文中，我们通过概述已用于 DL 音乐生成的 NN 架构来描述 DL 音乐生成的最新技术，并讨论了在使用深度 NN 时仍面临的挑战在音乐一代。
使用 DL 架构和技术生成音乐（以及其他艺术内容）是一个不断增长的研究领域。然而，还有一些开放的挑战，例如生成具有结构的音乐、分析生成的音乐的创造力以及构建可以帮助作曲家的交互模型。未来的工作应该专注于更好地建模长期关系（在时间轴和和声轴上），以生成结构良好且和谐的音乐，在几小节后不会松散，修复或人机交互是一项任务近年来越来越感兴趣。还有一个悬而未决的挑战，与迁移学习或风格生成的条件有关，允许不仅限于公开可用数据集中存在的相同作者和流派，例如 JSB Chorales 数据集或Lakh MIDI 数据集，它使大多数最先进的作品只专注于相同的音乐风格。当涉及到多乐器生成时，这项任务不遵循人类的创作过程，看到新的 DL 模型首先创作高质量的旋律内容，然后自己或在人类的帮助下决定乐器的数量可能会很有趣并能够为每种乐器编写高质量的音乐，以关注其音色特征。与使用 DL 生成音乐的方向相关的进一步问题，即构建可以从头开始生成高创意音乐的端到端模型或作曲家可以与 AI 交互的交互模型是未来的任务将解决，尽管人机交互的趋势每天都在以更快的速度增长。
在使用 DL 进行音乐创作中还有更多未解决的问题不在本文的讨论范围内。如果神经网络接受受版权保护的音乐，那么谁拥有使用深度学习生成的音乐的知识产权等问题。我们建议这将是商业应用中的一个重要密钥。这里的主要关键是定义什么使构图与其他构图不同，并且有几个特征在这里起着重要作用。正如我们在第 1 节中提到的，这些特征包括作曲本身，还包括用于创建乐器声音的音色和效果。从作曲的角度来看，这是我们研究的范围，我们可以说，当用 DL 生成音乐时，总是有可能生成与输入相似的音乐，有时生成的音乐具有直接取自于输入的模式。输入，因此必须从音乐理论、知识产权和科学的角度在该领域进行进一步研究，以定义是什么使作品与其他作品不同，以及如何注册使用 DL 生成的音乐。
我们希望本文中的分析有助于更好地理解问题和可能的解决方案，从而有助于基于深度学习的音乐生成的整体研究议程。

参考文献

[1] https://www.copyright.gov/prereg/music.html, 2019. accessed July 2021.
[2] Noam Chomsky. Syntactic structures. De Gruyter Mouton, 2009.
[3] David Cope. Experiments in musical intelligence (emi): Non-linear linguistic-based composition. Journal of New
Music Research, 18(1-2):117–139, 1989.
[4] Iannis Xenakis. Musiques formelles nouveaux principes formels de composition musicale. 1981.
[5] https://koenigproject.nl/project-1/, 2019. accessed July 2021.
[6] Peter M. Todd. A connectionist approach to algorithmic composition. Computer Music Journal, 13(4):27–43,
1989.
[7] Gerhard Nierhaus. Algorithmic composition: paradigms of automated music generation. Springer Science &
Business Media, 2009.
[8] Lejaren A Hiller Jr and Leonard M Isaacson. Musical composition with a high speed digital computer. In Audio
Engineering Society Convention 9. Audio Engineering Society, 1957.
[9] Gaëtan Hadjeres, François Pachet, and Frank Nielsen. Deepbach: a steerable model for bach chorales generation.
In Doina Precup and Yee Whye Teh, editors, Proceedings of the 34th International Conference on Machine
Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, volume 70 of Proceedings of Machine Learning
Research, pages 1362–1371. PMLR, 2017.
[10] Michael C. Mozer. Neural network music composition by prediction: Exploring the benefits of psychoacoustic
constraints and multi-scale processing. Connect. Sci., 6(2-3):247–280, 1994.
[11] Douglas Eck. A network of relaxation oscillators that finds downbeats in rhythms. In Georg Dorffner, Horst
Bischof, and Kurt Hornik, editors, Artificial Neural Networks - ICANN 2001, International Conference Vienna,
Austria, August 21-25, 2001 Proceedings, volume 2130 of Lecture Notes in Computer Science, pages 1239–1247.
Springer, 2001.
[12] Douglas Eck and Jürgen Schmidhuber. Learning the long-term structure of the blues. In José R. Dorronsoro,
editor, Artificial Neural Networks - ICANN 2002, International Conference, Madrid, Spain, August 28-30, 2002,
Proceedings, volume 2415 of Lecture Notes in Computer Science, pages 284–289. Springer, 2002.
[13] Jamshed J Bharucha and Peter M Todd. Modeling the perception of tonal structure with neural nets. Computer
Music Journal, 13(4):44–53, 1989.
[14] Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Hui Xiong, and Qing He. A
comprehensive survey on transfer learning. Proc. IEEE, 109(1):43–76, 2021.
[15] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. In Yoshua Bengio and Yann LeCun,
editors, 2nd International Conference on Learning Representations, ICLR 2014, Banff, AB, Canada, April 14-16,
2014, Conference Track Proceedings, 2014.
[16] Irina Higgins, Loïc Matthey, Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed,
and Alexander Lerchner. beta-vae: Learning basic visual concepts with a constrained variational framework.
In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017,
Conference Track Proceedings. OpenReview.net, 2017.
[17] Adam Roberts, Jesse H. Engel, Colin Raffel, Curtis Hawthorne, and Douglas Eck. A hierarchical latent vector
model for learning long-term structure in music. In Jennifer G. Dy and Andreas Krause, editors, Proceedings of
the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholm, Sweden,
July 10-15, 2018, volume 80 of Proceedings of Machine Learning Research, pages 4361–4370. PMLR, 2018.
[18] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron
Courville, and Yoshua Bengio. Generative adversarial nets. NIPS’14, page 2672–2680, Cambridge, MA, USA,
2014. MIT Press.
[19] Frank Rosenblatt. The perceptron: a probabilistic model for information storage and organization in the brain.
Psychological review, 65(6):386, 1958.
[20] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[21] Kunihiko Fukushima and Sei Miyake. Neocognitron: A new algorithm for pattern recognition tolerant of
deformations and shifts in position. Pattern Recognit., 15(6):455–469, 1982.
[22] Yann LeCun, Patrick Haffner, Léon Bottou, and Yoshua Bengio. Object recognition with gradient-based learning.
In David A. Forsyth, Joseph L. Mundy, Vito Di Gesù, and Roberto Cipolla, editors, Shape, Contour and Grouping
in Computer Vision, volume 1681 of Lecture Notes in Computer Science, page 319. Springer, 1999.
[23] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser,
and Illia Polosukhin. Attention is all you need. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M.
Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett, editors, Advances in Neural Information
Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017,
Long Beach, CA, USA, pages 5998–6008, 2017.
[24] Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Curtis Hawthorne, Andrew M Dai,
Matthew D Hoffman, and Douglas Eck. Music transformer: Generating music with long-term structure. arXiv
preprint arXiv:1809.04281, 2018.
[25] Raymond Glenn Levi. A field investigation of the composing processes used by second-grade children creating
original language and music pieces. PhD thesis, Case Western Reserve University, 1991.
[26] David Collins. A synthesis process model of creative thinking in music composition. Psychology of music,
33(2):193–216, 2005.
[27] Charles W Walton. Basic Forms in Music. Alfred Music, 2005.
[28] Jeff Ens and Philippe Pasquier. Mmm: Exploring conditional multi-track music generation with the transformer.
arXiv preprint arXiv:2008.06048, 2020.
[29] Hugo Larochelle and Iain Murray. The neural autoregressive distribution estimator. In Geoffrey J. Gordon,
David B. Dunson, and Miroslav Dudík, editors, Proceedings of the Fourteenth International Conference on
Artificial Intelligence and Statistics, AISTATS 2011, Fort Lauderdale, USA, April 11-13, 2011, volume 15 of JMLR
Proceedings, pages 29–37. JMLR.org, 2011.
[30] Mason Bretan, Gil Weinberg, and Larry P. Heck. A unit selection methodology for music generation using
deep neural networks. In Ashok K. Goel, Anna Jordanous, and Alison Pease, editors, Proceedings of the Eighth
International Conference on Computational Creativity, ICCC 2017, Atlanta, Georgia, USA, June 19-23, 2017,
pages 72–79. Association for Computational Creativity (ACC), 2017.
[31] Elliot Waite et al. Generating long-term structure in songs and stories. Web blog post. Magenta, 15(4), 2016.
[32] Gaëtan Hadjeres and Frank Nielsen. Interactive music generation with positional constraints using anticipationrnns. CoRR, abs/1709.06404, 2017.
[33] Colin Raffel. Learning-based methods for comparing sequences, with applications to audio-to-midi alignment
and matching. PhD thesis, Columbia University, 2016.
[34] Christine Payne. Musenet, 2019. URL https://openai. com/blog/musenet, 2019.
[35] Junyan Jiang, Gus Xia, Dave B. Carlton, Chris N. Anderson, and Ryan H. Miyakawa. Transformer VAE: A
hierarchical model for structure-aware and interpretable music representation learning. In 2020 IEEE International
Conference on Acoustics, Speech and Signal Processing, ICASSP 2020, Barcelona, Spain, May 4-8, 2020, pages
516–520. IEEE, 2020.
[36] Ziyu Wang, Yiyi Zhang, Yixiao Zhang, Junyan Jiang, Ruihan Yang, Junbo Zhao, and Gus Xia. PIANOTREE
VAE: structured representation learning for polyphonic music. CoRR, abs/2008.07118, 2020.
[37] Gautam Mittal, Jesse H. Engel, Curtis Hawthorne, and Ian Simon. Symbolic music generation with diffusion
models. CoRR, abs/2103.16091, 2021.
[38] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In Hugo Larochelle,
Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, editors, Advances in Neural
Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS
2020, December 6-12, 2020, virtual, 2020.
[39] Stefan Lattner, Maarten Grachten, and Gerhard Widmer. Imposing higher-level structure in polyphonic music
generation using convolutional restricted boltzmann machines and constraints. CoRR, abs/1612.04742, 2016.
[40] Meinard Müller. Fundamentals of Music Processing - Audio, Analysis, Algorithms, Applications. Springer, 2015.
[41] Ke Chen, Weilin Zhang, Shlomo Dubnov, Gus Xia, and Wei Li. The effect of explicit structure encoding of
deep neural networks for symbolic music generation. In 2019 International Workshop on Multilayer Music
Representation and Processing (MMRP), pages 77–84. IEEE, 2019.
[42] Yin-Cheng Yeh, Wen-Yi Hsiao, Satoru Fukayama, Tetsuro Kitahara, Benjamin Genchel, Hao-Min Liu, Hao-Wen
Dong, Yian Chen, Terence Leong, and Yi-Hsuan Yang. Automatic melody harmonization with triad chords: A
comparative study. CoRR, abs/2001.02360, 2020.
[43] Wei Yang, Ping Sun, Yi Zhang, and Ying Zhang. Clstms: A combination of two lstm models to generate chords
accompaniment for symbolic melody. In 2019 International Conference on High Performance Big Data and
Intelligent Systems (HPBD&IS), pages 176–180. IEEE, 2019.
[44] Hongyuan Zhu, Qi Liu, Nicholas Jing Yuan, Chuan Qin, Jiawei Li, Kun Zhang, Guang Zhou, Furu Wei, Yuanchun
Xu, and Enhong Chen. Xiaoice band: A melody and arrangement generation framework for pop music. In Yike
Guo and Faisal Farooq, editors, Proceedings of the 24th ACM SIGKDD International Conference on Knowledge
Discovery & Data Mining, KDD 2018, London, UK, August 19-23, 2018, pages 2837–2846. ACM, 2018.
[45] Hongyuan Zhu, Qi Liu, Nicholas Jing Yuan, Kun Zhang, Guang Zhou, and Enhong Chen. Pop music generation:
From melody to multi-style arrangement. ACM Trans. Knowl. Discov. Data, 14(5):54:1–54:31, 2020.
[46] Cheng-Zhi Anna Huang, Curtis Hawthorne, Adam Roberts, Monica Dinculescu, James Wexler, Leon Hong, and
Jacob Howcroft. Approachable music composition with machine learning at scale. In Arthur Flexer, Geoffroy
Peeters, Julián Urbano, and Anja Volk, editors, Proceedings of the 20th International Society for Music Information
Retrieval Conference, ISMIR 2019, Delft, The Netherlands, November 4-8, 2019, pages 793–800, 2019.
[47] Cheng-Zhi Anna Huang, Tim Cooijmans, Adam Roberts, Aaron C. Courville, and Douglas Eck. Counterpoint by
convolution. In Sally Jo Cunningham, Zhiyao Duan, Xiao Hu, and Douglas Turnbull, editors, Proceedings of the
18th International Society for Music Information Retrieval Conference, ISMIR 2017, Suzhou, China, October
23-27, 2017, pages 211–218, 2017.
[48] Yifei Teng, Anny Zhao, and Camille Goudeseune. Generating nontrivial melodies for music as a service. In
Sally Jo Cunningham, Zhiyao Duan, Xiao Hu, and Douglas Turnbull, editors, Proceedings of the 18th International
Society for Music Information Retrieval Conference, ISMIR 2017, Suzhou, China, October 23-27, 2017, pages
657–663, 2017.
[49] Nicholas Trieu and R Keller. Jazzgan: Improvising with generative adversarial networks. In MUME workshop,
2018.
[50] Shunit Haviv Hakimi, Nadav Bhonker, and Ran El-Yaniv. Bebopnet: Deep neural models for personalized jazz
improvisations. In Proceedings of the 21st international society for music information retrieval conference, ismir,
2020.
[51] Hao Hao Tan. Chordal: A chord-based approach for music generation using bi-lstms. In Kazjon Grace,
Michael Cook, Dan Ventura, and Mary Lou Maher, editors, Proceedings of the Tenth International Conference
on Computational Creativity, ICCC 2019, Charlotte, North Carolina, USA, June 17-21, 2019, pages 364–365.
Association for Computational Creativity (ACC), 2019.
[52] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Image style transfer using convolutional neural networks.
In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June
27-30, 2016, pages 2414–2423. IEEE Computer Society, 2016.
[53] Gino Brunner, Andres Konrad, Yuyi Wang, and Roger Wattenhofer. MIDI-VAE: modeling dynamics and
instrumentation of music with applications to style transfer. In Emilia Gómez, Xiao Hu, Eric Humphrey, and
Emmanouil Benetos, editors, Proceedings of the 19th International Society for Music Information Retrieval
Conference, ISMIR 2018, Paris, France, September 23-27, 2018, pages 747–754, 2018.
[54] Hsiao-Tzu Hung, Chung-Yang Wang, Yi-Hsuan Yang, and Hsin-Min Wang. Improving automatic jazz melody
generation by transfer learning techniques. In 2019 Asia-Pacific Signal and Information Processing Association
Annual Summit and Conference, APSIPA ASC 2019, Lanzhou, China, November 18-21, 2019, pages 339–346.
IEEE, 2019.
[55] Ziyu Wang, Dingsu Wang, Yixiao Zhang, and Gus Xia. Learning interpretable representation for controllable
polyphonic music generation. CoRR, abs/2008.07122, 2020.
[56] Shih-Lun Wu and Yi-Hsuan Yang. Musemorphose: Full-song and fine-grained music style transfer with just one
transformer VAE. CoRR, abs/2105.04090, 2021.
[57] Zhiqian Chen, Chih-Wei Wu, Yen-Cheng Lu, Alexander Lerch, and Chang-Tien Lu. Learning to fuse music
genres with generative adversarial dual learning. In Vijay Raghavan, Srinivas Aluru, George Karypis, Lucio Miele,
and Xindong Wu, editors, 2017 IEEE International Conference on Data Mining, ICDM 2017, New Orleans, LA,
USA, November 18-21, 2017, pages 817–822. IEEE Computer Society, 2017.
[58] George Grove. Beethoven and his nine symphonies, volume 334. Courier Corporation, 1962.
[59] Ertugrul Sevsay. ˘ The cambridge guide to orchestration. Cambridge University Press, 2013.
[60] Soo-Yol Ok Semin Kang and Young-Min Kang. Automatic music generation and machine learning based
evaluation. In International Conference on Multimedia and Signal Processing, pages 436–443, 2012.
[61] Hang Chu, Raquel Urtasun, and Sanja Fidler. Song from PI: A musically plausible network for pop music
generation. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April
24-26, 2017, Workshop Track Proceedings. OpenReview.net, 2017.
[62] Hao-Wen Dong, Wen-Yi Hsiao, Li-Chia Yang, and Yi-Hsuan Yang. Musegan: Multi-track sequential generative
adversarial networks for symbolic music generation and accompaniment. In Sheila A. McIlraith and Kilian Q.
Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the
30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 34–41.
AAAI Press, 2018.
[63] Lantao Yu, Weinan Zhang, Jun Wang, and Yong Yu. Seqgan: Sequence generative adversarial nets with policy
gradient. In Satinder P. Singh and Shaul Markovitch, editors, Proceedings of the Thirty-First AAAI Conference on
Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA, pages 2852–2858. AAAI Press, 2017.
[64] Hao-Wen Dong and Yi-Hsuan Yang. Convolutional generative adversarial networks with binary neurons for
polyphonic music generation. In Emilia Gómez, Xiao Hu, Eric Humphrey, and Emmanouil Benetos, editors,
Proceedings of the 19th International Society for Music Information Retrieval Conference, ISMIR 2018, Paris,
France, September 23-27, 2018, pages 190–196, 2018.
[65] Andrea Valenti, Antonio Carta, and Davide Bacciu. Learning a latent space of style-aware symbolic music
representations by adversarial autoencoders. CoRR, abs/2001.05494, 2020.
[66] Chris Donahue, Huanru Henry Mao, Yiting Ethan Li, Garrison W. Cottrell, and Julian J. McAuley. Lakhnes:
Improving multi-instrumental music generation with cross-domain pre-training. In Arthur Flexer, Geoffroy Peeters,
Julián Urbano, and Anja Volk, editors, Proceedings of the 20th International Society for Music Information
Retrieval Conference, ISMIR 2019, Delft, The Netherlands, November 4-8, 2019, pages 685–692, 2019.
[67] Shulei Ji, Jing Luo, and Xinyu Yang. A comprehensive survey on deep music generation: Multi-level representations, algorithms, evaluations, and future directions. CoRR, abs/2011.06801, 2020.
[68] Cheng-i Wang and Shlomo Dubnov. Guided music synthesis with variable markov oracle. In Philippe Pasquier,
Arne Eigenfeldt, and Oliver Bown, editors, Musical Metacreation, Papers from the 2014 AIIDE Workshop, October
4, 2014, Raleigh, NC, USA, volume WS-14-18 of AAAI Workshops. AAAI Press, 2014.
[69] Omar Peracha. Improving polyphonic music models with feature-rich encoding. CoRR, abs/1911.11775, 2019.
[70] Olof Mogren. C-RNN-GAN: continuous recurrent neural networks with adversarial training. CoRR,
abs/1611.09904, 2016.
[71] Gino Brunner, Yuyi Wang, Roger Wattenhofer, and Sumu Zhao. Symbolic music genre transfer with cyclegan. In
Lefteri H. Tsoukalas, Éric Grégoire, and Miltiadis Alamaniotis, editors, IEEE 30th International Conference on
Tools with Artificial Intelligence, ICTAI 2018, 5-7 November 2018, Volos, Greece, pages 786–793. IEEE, 2018.
[72] Robert J Sternberg and James C Kaufman. The nature of human creativity. Cambridge University Press, 2018.
[73] Monica Dinculescu, Jesse Engel, and Adam Roberts, editors. MidiMe: Personalizing a MusicVAE model with
user data, 2019.