AI音乐或至奇点时刻

最新推荐文章于 2024-07-21 12:40:56 发布

海选报告

最新推荐文章于 2024-07-21 12:40:56 发布

阅读量1k

点赞数 22

文章标签：人工智能

本文链接：https://blog.csdn.net/haixuanzhiku/article/details/137572273

版权

今天分享的是AI专题系列深度研究报告：《AI专题：AI音乐或至奇点时刻》。

（报告出品方：东吴证券）

报告共计： 27页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

核心观点

Suno V3 生成效果进步神速，或成为现象级应用:今年3月，Suno发布V3版本，支持生成2分钟长度、广播质量级别的音乐，对prompt的理解更深,幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”，因为它不需要专业的prompt词汇，甚至不需要理解音乐的专业知识，普通人就可以生成自己想要的音乐。Sumo V3 具有丰富的选项、活跃的社区氛围、相对高质量的生成效果，并采用免費+付费的t0C商业模式。

音频生成领域仍处于早期阶段，具有较大发展潜力，技术和版权问题仍需解决。Suno创始人表示，现在的我们必须像 2022 年思考文本生成那样考虑音频生成。当前，Suno并不完美，在时长、语言理解力，以及音乐分轨等方面都仍有提升空间。想要解决这些问题，需要数据、时间和一定的技术突破。此外，版权是AI音乐发展绕不过去的问题。声音具有强烈的人身属性，更是歌手赖以生存的根本。未经本人允许，通过AI技术伪造声音,即使对歌手人身权益的损害，也可能引发诈骗事件。2023年以来，谷歌已尝试与环球音乐进行谈判，希望达成版权合作关系。AI降低音乐创作门槛，有望释放UGC音乐潜力。随着创作门槛降低，文字、图片、视频的UGC催生了一众网文、社交、短视频平台等，但音乐作为情感传达的方式之一，UGC内容尚处萌芽阶段，我们试图从(1)是否存在UGC音乐内容需求、(2)制约UGC音乐发展的因素，探讨音乐UGC的空间，以及为什么我们认为AI时代，音乐UGC有望释放其商业化潜能。众口难调和个性化创作是音乐UGC存在的基础。用户的音乐需求呈现分散化、圈层化、小众化的特点，即使头部热门歌曲占据大部分的市场。但圈层用户、小众用户的长尾需求仍有较大市场。B站上AI孙燕姿等翻唱歌曲，用户基于热点事件的已有歌曲创作等都有不错的播放量，亦验证了音乐UGC需求的存在。

但不同于文字和短视频，音乐创作尚未出现低门槛工具，编曲、录制等均需要一定技术储备和成本，限制了普通用户的音乐创作。当前，音乐AI大模型使得用户可以在短时间内、无门槛生成较为成熟的音乐作品。对标网文及短视频平台，我们看好在创作门槛降低后，C端应用不断探索有望放大音乐UGC商业化潜力。

模型进步催生应用落地，积极关注先行者卡位优势。随着海内外AI音乐大模型持续更新，B端已有如万兴科技等公司落地相关功能，赋能创作者，C端应用也在不断兑现，比如1)昆仑万维于天工APP中上线AI音乐功能，用户可进行AI音乐创作并分享至微信、抖音，2)盛天网络的给麦，定位AI音乐社交并已开启商业化等。我们看好AI赋能下，音乐有望从单向传播(单纯的音乐欣赏)转变为UGC、PUGC共创的交互生态，催生出AI音乐新空间。看好率先布局探索应用落地的公司，推荐昆仑万维、盛天网络、万兴科技等。

SunoV3 出圈，成为“音乐界的ChatGPT’

SunoV3 生成效果进步神速，或成为现级应用:2024年3月22日，Suno发布了V3版本，支持生成2分钟长度、广播质量级别的音乐，对prompt的理解更深，幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”，因为它不需要专业的prompt词汇，甚至不需要理解音乐的专业知识，普通人就可以生成自己想要的音乐。

选项丰富：用户可以输入音乐风格、流派、歌词内容、音色等提示词可以自定义歌曲的不同部分，如引子、主歌、副歌等。

多样化风格：Suno支持包括古典音乐、爵士乐、Hiphop、电子等在内的丰富音乐风格和流派。

多语言支持：Suno支持多种语言，包括中文和英文，对中文生成的AI歌曲非常友好。

收费模式：Sumo为新注册用户提供每天生成10首歌曲的免费试用额度。用户如果需要更多生成额度或额外功能，可以选择订阅Suno的“Pro”版本(每个月500首歌，8美元)或“Premier”计划(每个月2000首歌，24美元)。

Suno的技术原理:基于transformer架构，和文本生成类似

音频生成具体场景分为三大类:音乐、语音和音效。Suno 是这波将音乐与语音相结合的音频生成探索中的最新产物，其历史可以追溯至TcnsorfowMagenla。其他相关尝试还包括翻译与语音生成的无缝混合、Audiobox加语音与音效，以及专门生成音乐和音效的 SlableAudio。Suno背后主要由自研的两个大模型支撑，分别是基于(ransformer的Bark语音模型和Chirn音乐模型，前者主要用来生成人声，后者提供音乐旋律和音效，两者让Suo生成的音乐旋律更智能化、复杂化。Suno的原理跟文本生成相似。通过训练模型来预测接下来将要出现的(okcn的概率。Suno团队传用多种模型和多种素材训练模型，确保Suno能够生成各种类型的音频，能够区分语音、背景音乐和人声等元素:并强调让模型自主学习和探索，而不是强加规则表示，尽量减少对模型的显式知识输入。Suno团队认为，过多的人为干涉可能会限制模型的自我学习能力，强调泛化能力和端到端学习的方法更为有效。

Mikey Shulman认为尽管目前取得了一些成果，但音频生成领域仍处于早期阶段，可能落后围像和文本一到两年时间，仍有改进的空间。“现在的我们必须像 2022 年思考文本生成那样考虑音频生成”。

Suno并不完美，在时长、语言理解力，以及音乐分轨等方面都有问题。

首先，目前Sumo生成的曲子都不到两分钟，很多作品经常夏然而止，影响了听觉效果。

其次，虽然Suno支持多国语言创作，但其最了解的还是英文，在理解中文歌词及音乐风格上，存在明显偏差。在生成电子、R&B、摇滚等音乐风格时，Suno能处理得很好，但华语流行风格不太行。

此外，Suo创作出的作品不支持调整分轨，专业人士没有办法对生成的歌曲进行调整，这也是目前困扰Suno商业化的最大难点。虽然目前Suno生成的音乐能轻松达到广告配乐、影视配音标准，但如果客户听完后想修改细节，Suno就办不到了，只能再次随机生成另一首曲子。最后，Suno生成音乐音频清晰度不够高，这也让其很难改编。曲子的高频和低频损失比较严重，还会伴有杂音、噪音等。所以目前Suno更多的是用来娱乐。想要解决这些问题，需要数据、时间和一定的技术突破。