SONG FROM PI: A MUSICALLY PLAUSIBLE NETWORK
FOR POP MUSIC GENERATION
论文原文:Song from pi
生成的音乐:www.cs.toronto.edu/songfrompi
摘要
我们使用深度网络结合音乐的知识来生成音乐,具体来说,网络下面的层用来生成Melody(歌曲的旋律),上面的层用来生成Drums(节拍)与Chords(和弦)。我们将此方法和Google的方法进行了对比,此外还设计了两个新奇的应用。
绪论
(首先从宏观来说——深度学习在艺术上的成就)
不仅是在图像和音频领域,深度学习在艺术领域也有所建树。例如:梵高的画、通过图像生成故事、学习莎士比亚的写作风格、给出对于时尚的建议等。
(然后具体到本论文的主题——音乐生成)
按时间顺序对这个领域的论文进行了一个综
……
(之后说我们灵感的来源、我们的动机)
我们的动机来源于Song From PI,它给我们的启示是:任意一段随机的数字都可能是Pi的一部分,也就是说,其实杂乱无章的数字也可以生成很优美的音乐。受到这个的启发,我们决定尝试使用深度网络去生成音乐。
(介绍方法)
我们使用RNN去生成音乐,使用网络下面的层生成Melody,同时使用上面的层生成Chords和Drums,为的是让Drums和Chords能够和Melody配合(因为上面的层使用了下面层的输出,也就是Chords和Drums获得了Melody的信息,因此可以配合)。
(实验)
我们在100小时的midi音乐上(包括流行音乐和游戏音乐)训练了我们的模型,我们将Google的方法作为BaseLine,和其对比也证实了我们的方法比Google 的要好。同时我们也展示了两个应用——neural dancing & karaoke和 neural story singing。在第一个应用中,实验里的小人可以随着音乐起舞并唱卡拉OK,第二应用里面我们做了和Kiros一样的工作,使用一张图片生成一个故事,但不同的是,我们实验可以将这个故事唱出来。
相关研究
关于音乐生成的应用有很多,先综了一些
……
然后开始述:
以前的方法常常是将音符的结合方式嵌入到生成系统中去生成音乐,例如……,另一方面,神经网络在八十年代就被用于生成音乐,列举了从89年到96年再到01、02年的一些文章。并且在1996年就有人用循环神经网络去做音乐生成。LSTM也在2002年被使用到这个问题中,并且和RNN相比,LSTM更好的学习到了音乐的整体结构。
和我们方法的很像,Kang在2012年尝试将Melody和Drums结合去生成音乐,然而,在他们的工作中,音阶类型被强化了,而且也没有模型的详细信息,因此无法比较。Boulanger-lewandowski在2012年尝试学习复杂的多韵律变换的音乐结构,其中有很多的音符,并行演奏,但这个模型是单轨(single track)的,只生成了Melody,而我们的工作是多轨(multi track)的,同时生成Melody和Chords、Drums。最近,huang在2016年提出了一种两层的LSTM,就像Boulanger-lewandowski一样,生成了更加复杂的单轨音乐,同时也使用了Chords。
我们的主要创新在于:我们使用了一个分层的模型,并将音乐理论的知识结合到这个模型中,并生成了多轨(Melody、Chords、Drums)的流行音乐,同时我们还有两个非常Novel的应用。
音乐理论
从最简单的音乐记号和定义开始: