【AI作曲】毁掉音乐？早该来了！一个网易音乐人对于 AI 大模型音乐创作的思辨

本文链接：https://blog.csdn.net/qq_43768851/article/details/139872690

引言：AI在创造还是毁掉音乐？

正如当初 midjourney 和 StableDiffusion 在绘画圈掀起的风波一样，suno 和各大音乐大模型的来临，其实早该来了。

AI 在毁掉绘画？或者毁掉音乐？

没错，但也错了。至于理由稍稍有些复杂。也许我们的想法略有不同。

我将从社会、商业、艺术形式、人工智能技术、深度学习原理及其思辨等多个角度，结合我作为音乐人、艺术爱好者和技术工作者的角色，对音乐和AI发展的个人见解来议论这个话题。

写得略深，懒得配图… 如果不想动脑可以关掉了。

// 免责声明：本篇博客纯属个人娱乐见解，不代表任何权威观点，仅供参考。//

一、AI 音乐（艺术）大模型能真正创新吗？

先说答案：看似，能；理解深度学习的原理后，能，但不完全能。

1.你的神经网络孩子，是如何创作的？（概念说明：神经网络、数据集、拟合、学习训练原理）

无论是绘画、文字还是音频，深度学习需要把 已经存在的内容（也就是其他人画好的画、写好的小说、创作好的音乐） 输入给神经网络，通过指定的一些算法进行学习。

你可以这样理解：在神经网络被初创的时候，它只是一个什么都不会的婴儿 —— 具有学习的能力，但目前还什么都没学。

所以说，你需要教他，让他学习你想要让他学习的内容，这样在它学会了之后，才能为你服务。

你给神经网络喂乌龟的图片，它就能够学习乌龟是什么样子的，之后，它就能生成出乌龟来。这相当于你给这个“神经网络孩子”报了个绘画补习班（补习班的内容就是学习画各种各样的乌龟）。当它学成了之后，它也只能画乌龟，而不能创作模仿德彪西的钢琴曲写出个《月光》来。

一切神经网络所掌握的内容，都来源于它所学习的内容（数据集）。

所以，看似它能相对而言进行假的 “创新”；然而在实际上，这是一种真的 “模仿”。 模仿的过程，我们称之为 “拟合” ，也就是通过持续不断地迭代学习，来学着概括它所学习的内容的普遍形式（一种 “特征”）。这里，我们要引出两个概念：过拟合、欠拟合。

概念一：过拟合
过拟合的意思是，它太过于接近，反而导致了它会直接生成出和他所学的内容一模一样的东西。比如说你把贝多芬创作的所有钢琴曲都让这个神经网络进行学习。
它学习了很久，你本来希望的是，它能模仿贝多芬的风格进行创作，然而它过拟合了，它创作出来的内容就是贝多芬的原曲！变都没变！（这只是极端的过拟合情况，正常的过拟合情况是，会和原曲很像）。如此一来，它失去了 “创新” 的能力。

概念二：欠拟合
很简单，欠拟合就是，你可怜的神经网络孩子在补习班里没学会贝多芬的风格，你叫它生成出来贝多芬风格的音乐给你听的时候，它生成出了一堆噪音（笑）。
导致这种现象的原因主要是因为：1.你没给这个神经网络孩子足够的时间来学习（迭代次数少）2.你没告诉它正确的学习方法（算法选用不合适、训练参数不正确）。
第二种情况比第一种严重得多，如果这个神经网络孩子是聪明的，方法也对，那么我们只需要时间来让它学习；然而，当它被设置了错误的算法和参数后（天生是个傻子），你无论让它学习多久，它也无法学会（损失函数无法很好地收敛）。

2.为何是 “模仿”，难道真的不能 “创新”？

搞清楚了深度学习的原理后，请仔细思考我下面的这段话，它是关于 AI 能否创新的核心内容：

你并没有在创造一个 “贝多芬的艺术作品”，你在创造的，是一个尽可能接近于真实贝多芬的 “赛博贝多芬” —— 它能为你带来量产的贝多芬风格作品，快速、高效地生成 —— 比贝多芬写得快，但如果贝多芬还活着，他有能力创作出更多的风格的音乐；而你的神经网络孩子却无法这样做。

原因只有一个：当你把真实的贝多芬看做一个生物神经网络时，他学习的数据集是 无限的 广阔的世界；而你的神经网络孩子学习的数据集是真实贝多芬创作出来的 有限的 音乐作品。

能不能人为地制造 “无限” 呢？

可以，但不完全可以。

方法是为数据集的内容添加随机噪声（random noise）；或者，在选取数据集的时候就人为筛选“美感”较为强烈的内容（与 StableDiffusion 较为类似的一个新的模型 Playground-v2 就是这样做的）

尽管这种方法从理论上实现了 “无限”，可实际的效果却不那么尽如人意。

就当前的技术手段来讲，神经网络可以学习“风格”，而对于形而上的“美感”的学习的能力却十分有限。虽然两者都很抽象，但后者明显更难被把控。一方面是我们在哲学上对于美感的解释并未得到一个大统一，再者是已有的解释也没能被量化。

如果想要更进一步，也许将来的某一天，“美感”这种不明确的学习目标可以被解释成学习参数，再通过某种形式变为具体的网络训练参考或具体算法。

二、神经网络孩子，你动了谁的奶酪

1.AI 音乐大模型为何存在，意义在哪儿？

它的存在，主要原因只有一点：商业化。说白点儿，搞钱。
次要原因：有趣好玩、降低音乐创作门槛、科研、技术发展自然推动（其实说白了，所有次要原因的最终指向，还是出于市场角度考虑。除了真正热爱 AI 和音乐的人把它当成玩物）

在这里插入图片描述
<图片为，现在登顶第一的音乐生成大模型 suno>

2.为何近年来大家如此厌恶各类大模型

是因为 AI 画出来的东西真的很难看吗？

AI 画出来的东西碾压了绝大部分中小画师，这是不争的事实。至于大画师，受到的影响几乎为零。音乐方面亦复如是。

大家讨厌的原因无非集中于两个主要点：没灵魂、抢我饭碗

讨厌点一：没灵魂
艺术创作是有目的性的、旨在使用一种抽象的偏感性和形而上的方式来表达个人情感、见解或其他内容的社会意识形态、一种“链接” —— 一种带有浓厚个人色彩的、目的却是尝试对外界进行输出或沟通的表现形式（下面的板块会详谈）。
然而，AI省略了情感和思考，用冷冰冰的一个又一个带着权重的神经网络节点，把艺术作品克隆出来了。
这不得不让人感到愤怒和抵触，如果严重一点说，这是对人类意识形态和情感的一种挑衅行为。

讨厌点二：抢我饭碗
断人财路如srfm，讨厌也正常。

3.所以 AI 到底是在创造音乐还是毁灭音乐（包括绘画）

我觉得两者都有。

创造音乐：
今年3月份，杭州第一个AI绘画模型维权成功，理由是“在使用AI的过程中进行了头脑劳动”之类的。其实很公平，就是这样的。
社会的发展必然会导致这样的结果，就好像当初工人砸掉织布的机器一样，如今又上演。
不过这一次，为何不当一回制造机器的人呢（笑）。
如果按照艺术的角度上来说，如果把一首歌的全部部分都交给AI，你的作品的创造性是十分有限的，我们在解释深度学习的原理的时候就已经说明过这个问题了。
正确的用法应该是，AI为音乐人提供思路和旋律走向、和弦编排，而音乐人是那个“审阅人”，找出自己觉得好的内容，然后使用，并优化。
在这个过程中，音乐人关键的付出是“审美”和对于音乐宿主软件（你可以把宿主软件理解为集成开发环境）的操作，以及一些细节调整和整体把控。这样人机共同创作歌曲，才是最优解。

毁掉音乐
其实相比于画师，音乐人受到的影响并没有多大，甚至说没什么影响。
因为音乐创作的感性点更多，很多时候要不按常理出牌，这正好是 AI 不擅长的内容。
如果你要创作口水歌，那么无疑，AI 现在就已经能把你淘汰了 —— AI 最擅长口水歌。因为当今乐坛大部分都是口水歌！
如此的压力下，中低水平的画师和音乐人就要另谋出路，将来选择进入这个行业的人也会越来越少。
所以你看，AI 毁掉的不是音乐，而是音乐创作的生态圈。到此为止吧。

三、对于艺术的思考（附加篇）

1.什么是艺术

无论是美术还是音乐，它们都是艺术的一种形态。

然而无论是度娘还是google，在我们去搜索关于艺术的定义时，会发现始终没有一个一锤定音的答案。最好的结果，你能找到各大搜索引擎和稠人广众的洋洋洒洒。那不妨，鄙人也于百舌之声中抛砖引玉，浅谈拙见。

且不论艺术之历史，只谈它的表现形式。

艺术创作大多是有目的性的，它旨在使用一种抽象的、偏感性和形而上的方式来表达个人情感、见解或其他内容。如果你仔细观察便不难发现，它是一种“链接” —— 一种带有浓厚个人色彩的、目的却是尝试对外界进行输出或沟通的表现形式。

艺术作品的好与坏，评论者的身份是决定性的。我们也许可以从两个角色的角度来将它们大体划分，然后再进行细分。

2.艺术的受众

第一部分：大众之声
如今艺术作品最大的欣赏群体是大众。相比于专业人士的角色视角，大众对于艺术作品的审视和判断，是不容忽视的。在过去的这些年里，我一直对于网络小说和量产口水歌有一定的偏见。
然而近些年我改变了自己的观点。因为它的存在是能为大部分人带来实打实的欣赏价值的。
而大部分的对此类艺术作品的评价来源于它是否能够勾起大部分人对于此作品的朴素美感认同，而非专业性和高级审美上的认同。

第二部分：专业人士
专业人士在自己擅长的艺术形式上的鉴赏是苛刻的。比如对于一首流行歌曲，在大众听来，或许不会在意其作曲旋律走向是否经过和声学的精心编排；编曲配器有多少，又是如何相互配合；效果器用了哪些；歌曲的结构是怎样的；缩混母带做没做好等等。只大家觉得 “好听”，这就够了。
然而在研究音乐的人耳朵里，这首歌曲在被欣赏时就已经被肢解得支离破碎了。美术、摄影等艺术创作形式也是一样，构图、色彩等等都会被肢解。
我在读大学的时候开过一家猫舍，对于各种品种猫从最开始觉得“这只猫好看”、“这只猫难看”，到后来的我看到一只猫，我已经无法分清它是否好看了。我能看到的只有一个标签，上面写着这只猫从品相分析和当前行情的角度上分析得来的市场价格。