音乐创作引擎实现即时交互体验的探索

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/128229755

本文介绍了如何借助人工智能和即时演算技术降低音乐创作门槛，实现音乐创作与体验的融合。通过AI辅助音乐创作编辑，使得更多普通人能够通过简单的交互创作音乐。文章探讨了音乐创作的交互方式、即兴反馈以及音画同步等问题，并对未来音乐创作的沉浸式体验和多感官参与趋势进行了展望。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

▲扫描图中二维码或点击阅读原文▲
了解音视频技术大会更多信息

编者按：随着音乐生产所依赖的设备成本不断降低，音乐消费者与创作者之间的界限正在逐渐消融。我们提出了一种新型音乐创作引擎。借助人工智能和即时演算技术，音乐的创作过程和体验过程得以实现融合：音乐将不再是视觉场景中的静态资源，而成为一种可以对用户即兴创作灵感做出实时响应的可交互元素。这使得更多的音乐消费者有机会体验置身于交互式音乐场景之中的趣味性。LiveVideoStackCon 2022 上海站大会我们邀请到了北京灵动音科技有限公司(DeepMusic) CTO 苑盛成博士为我们详细介绍了这种新型音乐创作引擎的研究成果和技术实践。

文/苑盛成

整理/LiveVideoStack

大家好，我是苑盛成，来自北京灵动音科技有限公司(DeepMusic)。非常荣幸向大家介绍我们在音视频方面的一些技术成果。灵动音科技(DeepMusic)主要业务是人工智能辅助音乐创作和制作，本次与大家分享的内容也与此相关。

1、行业背景与问题挑战

首先和大家聊聊目前音乐创作相关的行业背景与问题挑战。

传统的音乐制作过程分为五个阶段：创作者获得旋律、歌词灵感，通过五线谱曲谱或自己用吉他钢琴弹奏得到录音小样做示例，此阶段还十分粗糙，除了已有的歌词旋律外，还需要制作精良的伴奏，这就进入了编曲阶段。编曲阶段会使用到较大型软件如数字音乐工作站，编曲师能够按照一定速度为旋律添加适当的音色乐器，得出能够适配旋律及歌词的伴奏带。接着请歌手到录音棚中进行录制，录音师修正人声节奏及音高。将制作精良的伴奏和人声结合，进入混音阶段。混音师把乐器放置在正确的空间位置，从而良好地与人声融合，使声响尽量均衡，结束以上步骤后即可获得一条基本完成的音频。为了使观众听感更清晰，我们还需在不损失音质的情况下尽量提升音量。

以上便是完成一条音频最基本的步骤，也就是说即使不要求艺术效果，只是快速的流水线生产音频，不吃不喝最快也要半天时间。那如果进行一些艺术上的加工，耗时会更长，甚至达到一个月左右。而这只是时间成本。

制作音频需要的软件总计至少1000美元，不过，钱是小事，重要的是数年的音乐实践和经验积累。举个例子，苹果的编曲软件——logic pro，初学者甚至不知道如何在软件中找到正确的音色，更何况每条音色还可通过各种参数进行调整，此外，如果想要快速录入正确音符，还得先成为一个熟练的键盘手。

大家可以看到，完整制作一条音频需要的时间、金钱成本都很高，并且还要求创作者有一定的音乐知识背景。而目前国内仅有几十万能够进行全链条生产的原创音乐人。

个人而言，面向听歌需求的热歌生产在数量上已经严重过剩。现在的在线音乐用户规模将近七亿，原创音乐人大约有40万，乍一看这个比例还很悬殊，但其实一个音乐人就算一个月做一条音频，一年下来也可以生产300w首音乐，不可能每位听众一年都听300w首歌，也不可能每首歌都获得很高的讨论度。于是，最后一年收益为正也就是能够回本的音乐只有不到1w首。

音乐制作行业有着非常强的长尾效应，头部的极少数歌曲能够火遍全国，而后面99%以上的歌曲都处于赔本的状态。

但其实这个行业并不只有听歌这一个需求。近年来，除了听以外的用户需求正在不断增长，如前几年较火的K歌，至今已有1亿多的用户规模。可以试想一下，将近七亿的听众中有1亿多人想唱歌。此外还有学习需求，目前适龄儿童的音乐学习渗透量已经达到1600万。许多一二线城市的中小学都有音乐兴趣班，甚至有的班级还有班歌。

“玩”也是近几年增长