AI音乐或至奇点时刻

今天分享的是AI专题系列深度研究报告:《AI专题:AI音乐或至奇点时刻》。

(报告出品方:东吴证券

报告共计: 27

海量/完整电子版/报告下载方式:公众号《人工智能学派》

核心观点

Suno V3 生成效果进步神速,或成为现象级应用:今年3月,Suno发布V3版本,支持生成2分钟长度、广播质量级别的音乐,对prompt的理解更深,幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”,因为它不需要专业的prompt词汇,甚至不需要理解音乐的专业知识,普通人就可以生成自己想要的音乐。Sumo V3 具有丰富的选项、活跃的社区氛围、相对高质量的生成效果,并采用免費+付费的t0C商业模式。

音频生成领域仍处于早期阶段,具有较大发展潜力,技术和版权问题仍需解决。Suno创始人表示, 现在的我们必须像 2022 年思考文本生成那样考虑音频生成。当前,Suno并不完美,在时长、语言理解力,以及音乐分轨等方面都仍有提升空间。想要解决这些问题,需要数据、时间和一定的技术突破。此外,版权是AI音乐发展绕不过去的问题。声音具有强烈的人身属性,更是歌手赖以生存的根本。未经本人允许,通过AI技术伪造声音,即使对歌手人身权益的损害,也可能引发诈骗事件。2023年以来,谷歌已尝试与环球音乐进行谈判,希望达成版权合作关系。AI降低音乐创作门槛,有望释放UGC音乐潜力。随着创作门槛降低,文字、图片、视频的UGC催生了一众网文、社交、短视频平台等,但音乐作为情感传达的方式之一,UGC内容尚处萌芽阶段,我们试图从(1)是否存在UGC音乐内容需求、(2)制约UGC音乐发展的因素,探讨音乐UGC的空间,以及为什么我们认为AI时代,音乐UGC有望释放其商业化潜能。众口难调和个性化创作是音乐UGC存在的基础。用户的音乐需求呈现分散化、圈层化、小众化的特点,即使头部热门歌曲占据大部分的市场。但圈层用户、小众用户的长尾需求仍有较大市场。B站上AI孙燕姿等翻唱歌曲,用户基于热点事件的已有歌曲创作等都有不错的播放量,亦验证了音乐UGC需求的存在。

但不同于文字和短视频,音乐创作尚未出现低门槛工具,编曲、录制等均需要一定技术储备和成本,限制了普通用户的音乐创作。当前,音乐AI大模型使得用户可以在短时间内、无门槛生成较为成熟的音乐作品。对标网文及短视频平台,我们看好在创作门槛降低后,C端应用不断探索有望放大音乐UGC商业化潜力。

模型进步催生应用落地,积极关注先行者卡位优势。随着海内外AI音乐大模型持续更新,B端已有如万兴科技等公司落地相关功能,赋能创作者,C端应用也在不断兑现,比如1)昆仑万维于天工APP中上线AI音乐功能,用户可进行AI音乐创作并分享至微信、抖音,2)盛天网络的给麦,定位AI音乐社交并已开启商业化等。我们看好AI赋能下,音乐有望从单向传播(单纯的音乐欣赏)转变为UGC、PUGC共创的交互生态,催生出AI音乐新空间。看好率先布局探索应用落地的公司,推荐昆仑万维、盛天网络、万兴科技等。

SunoV3 出圈,成为“音乐界的ChatGPT’

SunoV3 生成效果进步神速,或成为现级应用:2024年3月22日,Suno发布了V3版本,支持生成2分钟长度、广播质量级别的音乐,对prompt的理解更深,幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”,因为它不需要专业的prompt词汇,甚至不需要理解音乐的专业知识,普通人就可以生成自己想要的音乐。

选项丰富:用户可以输入音乐风格、流派、歌词内容、音色等提示词可以自定义歌曲的不同部分,如引子、主歌、副歌等。

多样化风格:Suno支持包括古典音乐、爵士乐、Hiphop、电子等在内的丰富音乐风格和流派。

多语言支持:Suno支持多种语言,包括中文和英文,对中文生成的AI歌曲非常友好。

收费模式:Sumo为新注册用户提供每天生成10首歌曲的免费试用额度。用户如果需要更多生成额度或额外功能,可以选择订阅Suno的“Pro”版本(每个月500首歌,8美元)或“Premier”计划(每个月2000首歌,24美元)。

Suno的技术原理:基于transformer架构,和文本生成类似

音频生成具体场景分为三大类:音乐、语音和音效。Suno 是这波将音乐与语音相结合的音频生成探索中的最新产物,其历史可以追溯至TcnsorfowMagenla。其他相关尝试还包括翻译与语音生成的无缝混合、Audiobox加语音与音效,以及专门生成音乐和音效的 SlableAudio。Suno背后主要由自研的两个大模型支撑,分别是基于(ransformer的Bark语音模型和Chirn音乐模型,前者主要用来生成人声,后者提供音乐旋律和音效,两者让Suo生成的音乐旋律更智能化、复杂化。Suno的原理跟文本生成相似。通过训练模型来预测接下来将要出现的(okcn的概率。Suno团队传用多种模型和多种素材训练模型,确保Suno能够生成各种类型的音频,能够区分语音、背景音乐和人声等元素:并强调让模型自主学习和探索,而不是强加规则表示,尽量减少对模型的显式知识输入。Suno团队认为,过多的人为干涉可能会限制模型的自我学习能力,强调泛化能力和端到端学习的方法更为有效。

Mikey Shulman认为尽管目前取得了一些成果,但音频生成领域仍处于早期阶段,可能落后围像和文本一到两年时间,仍有改进的空间。“现在的我们必须像 2022 年思考文本生成那样考虑音频生成”。

Suno并不完美,在时长、语言理解力,以及音乐分轨等方面都有问题。

首先,目前Sumo生成的曲子都不到两分钟,很多作品经常夏然而止,影响了听觉效果。

其次,虽然Suno支持多国语言创作,但其最了解的还是英文,在理解中文歌词及音乐风格上,存在明显偏差。在生成电子、R&B、摇滚等音乐风格时,Suno能处理得很好,但华语流行风格不太行。

此外,Suo创作出的作品不支持调整分轨,专业人士没有办法对生成的歌曲进行调整,这也是目前困扰Suno商业化的最大难点。虽然目前Suno生成的音乐能轻松达到广告配乐、影视配音标准,但如果客户听完后想修改细节,Suno就办不到了,只能再次随机生成另一首曲子。最后,Suno生成音乐音频清晰度不够高,这也让其很难改编。曲子的高频和低频损失比较严重,还会伴有杂音、噪音等。所以目前Suno更多的是用来娱乐。想要解决这些问题,需要数据、时间和一定的技术突破。

报告来源/公众号:【海选智库】
本文仅供参考,不代表我们的任何建议。海选智库整理分享的资料仅推荐阅读,如需使用请参阅报告原文。

  • 22
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值