十四款音乐和语音AIGC产品介绍：从此实现K歌和影视创作自由？

最新推荐文章于 2025-05-19 17:20:51 发布

彩色蚂蚁

最新推荐文章于 2025-05-19 17:20:51 发布

阅读量2.1k

点赞数 27

CC 4.0 BY-SA版权

分类专栏： AIGC应用文章标签： AIGC 音乐生成语音合成

本文链接：https://blog.csdn.net/colorant/article/details/143721023

AIGC应用专栏收录该内容

6 篇文章

订阅专栏

作者公众号大数据与AI杂谈（TalkCheap），转载请标明出处

近期肝了很长时间，把国内外相对主流和常见的AIGC图像，视频，音频生成产品，网站都试用了一圈，做了一下总结，分享给大家。

本文主要是对一些音频生成产品的功能做简单地介绍和展示，图像生成和视频生成的产品介绍，可以参见前两篇文章

AIGC视频生成网站和工具大全：十六款产品功能，效果展示和价格比较

AIGC图像视频网站工具大全：数十款图像、视频、音频生成网站和软件，总有一款适合你（图像篇）

音频相关产品相对来说，热度没有图像和视频类生成产品来得高，但如果要正经做视频的话，音频的使用，还是必不可少的。音频类产品，大体上可以分为语音生成（转换）类，音乐生成类，和歌曲生成类。前者有非常多的成熟产品了，也有很多传统的技术实现，后两者则是在这两年在技术方面得到了快速迭代进步，特别是歌曲生成类，也逐渐迈入实用的阶段。

以下是本文音频篇中的介绍的主要产品列表：

suno
海螺音乐
海绵音乐
Udio
豆包音乐
天工音乐
StableAudio
Artlist
boomy
music-fx
通义
CosyVoice
Sovits
AudioCraft

suno

网址：www.suno.com

Suno是音乐AIGC领域，老牌成熟商业产品的代表。功能迭代也还比较频繁，音乐和歌曲的生成质量，从我这个完全没有音乐细胞的人的角度来看，大体也还是很不错的，具备比较好的多样性。此外，中文发音支持的也不错，大多数情况下都比较自然，比较少出现那种外国人说中文撇嘴，跑调的情况，但也有个别情况会丢词。

suno能够单独生成器乐，也能把乐器和人声混合生成歌曲。它最新的3.5模型，最长能生成4分钟长度的音乐。如果长度不够，你还可以对生成的音乐进行延长（接曲），虽然延长的效果不是完全可控，曲风也不一定完全匹配，但也还是有一定的实用性。如果你会使用一些音频编辑软件，对前后两次生成的音乐稍微做一些融合处理的话，也能整合出更长篇幅的完整歌曲。

此外Suno生成的歌曲也会根据歌名再给你画张图，配上字幕，做成个视频之类的，便于你分享你的成果。当然，这些功能也基本上是后来的类似产品的标配产品形态了。

除了通过自动生成歌词和自定义歌词来生成歌曲，如果你是IOS手机APP用户，最新的Suno Scenes功能，也支持通过一张图片来生成音乐。大体是根据图像的风格和内容，作词并生成歌曲。

优点：

歌曲生成质量较好，效果比较稳定。

功能相对比较全面，毕竟是领头羊产品。

中文发音支持相对不错

缺点：

操作界面相比后来的一些产品，易用性稍微差一点。

一些附加的指令控制歌曲中的生成要素之类的功能较少。

费用：

如果你只是随便试试，免费用户一天生成10首歌曲的额度大体也够用了。价格看你怎么看，自己玩不算便宜，对有业务需求的人来说，不算贵。

海螺音乐

网址：https://hailuoai.com/music

上一篇写海螺视频的时候，还是免费的。才写完没几天就开始收费了。而海螺音乐目前还是免费的。但近期功能迭代更新似乎不多，可能精力都去搞视频了？

海螺音乐生成音频的方式，我猜和Suno有比较大的区别，目前的方式更像是参考指定曲目的节奏和风格，然后模仿重唱新的歌词，更接近对前面指定的歌曲，进行相似性拓展的感觉。

所以曲风上，你不是只是选择一个风格，而是选择一个具体的曲目，当然，也就没有办法同时选择多个风格了。这样的好处是参考的对象很具象，你比较容易预判生成的歌曲的整体感觉，不好的地方，就是生成的结果，变化相对较少。有很重的对原歌曲的模仿的感觉，原创性和曲风变化较少，所以有时候整体感觉质量就比较一般。

不过也是因为如此，曲风就不太有限制，反正就是模仿呗，所以，甚至能生成京剧唱腔的歌曲。

优点：

目前音乐生成速度比较快，且不限额度

可以选择参考具体的歌曲，结果有一定的可预测性

缺点：

只能生成一分钟长度的音乐，所以多半只能当做试听，或者片段，很难作为完整的歌曲使用，如果你有较强的音乐编辑能力，或许可以自己合成。官方也说了，中文的歌词，推荐8行左右。

费用：免费

海绵音乐

网址：https://www.haimian.com/

海绵音乐也是字节旗下的产品，我感觉是目前国内最接近Suno的产品了，音乐生成的质量非常好，交互界面做得比Suno优秀。国内的产品，中文发音自然是没有问题的，非常顺滑。

海绵音乐的灵感创造功能，也提供了和Suno类似的上传图片生成歌曲的能力，我试了几首效果都还不错，风格是跟着图像来的，歌词则会围绕着画面的一些元素进行创作。比如我上传了一张万圣节哥特风格的摄影照片，画面带一点恐怖元素，结果生成的曲风就很有90年代的味道，歌词带一点无厘头的发廊摇滚色彩。

优点：

生成的歌曲结构非常完整，不是特别长的歌词的话，不太容易出现唱了一半突然停止的情况

不限量免费试用，生成速度非常快，3分钟的歌曲可能一分钟就生成完毕了。

缺点：

风格和心情是固定搭配的选项，不能够同时选择多个风格，没有更灵活的自定义的方式。

声音是指定的，或男或女，始终是同一个声音，不像suno，可能生成男女混唱，合唱，伴唱的曲目。

费用：当前是免费的。

udio

网址 https://www.udio.com/

udio相对suno来说是比较新的一个网站，和suno孰优孰劣，反正各有各的说法，有说udio音质更好的，也有说suno更稳定更可控，旋律更优秀的。旋律好坏我不知道，音质嘛，用udio生成了几首爵士乐风格的歌曲，对我这个外行来说，黑人女歌手的声音确实还挺像那么回事，不管是什么词，反正都能给你套进去顺利唱下来。

至于中文发音呢，运气好呢，还挺标准，但很大概率发音会嘴瓢，唱摇滚就还适合。

Udio生成的音乐，有2分10秒和32秒两种长度，比较让人崩溃的是，这个长度是固定的。。。不管你给的歌词有多长，生成的歌曲就是这个长度，所以，最后的歌曲和歌词往往是不对齐的，如果歌词比较短，那么Udio就会各种自由发挥，补各种前奏，合唱混唱，词也是各种自创改编，调整顺序，换位置等等，并不会严格按照你的歌词来。

往好了说是创意无限，往坏了说是可控性不太好。

优点：

音质好，生成歌曲有时候有意外的惊喜。人声比较顺滑，会有变化起伏，不像有些产品生成的声音一直很平。

缺点：

网站交互设计一般，略显混乱。歌词可控性较差，效果较为随机。中文发音时好时坏，不太标准。

费用：免费账号，每个月总共100个信用点的限额，然后每天还有10个信用点限额，只够一天生成两次共4首2分钟长度的歌。免费账号也无法做任何后处理，比如编辑修改歌词之类的。付费用户的话，如果不是重度使用，10刀的计划，一个月300首左右，可能就可以了。

豆包

网址：www.doubao.com

豆包的音乐生成功能，可以在网站上使用，也可以在APP中使用。

作为智能助手的一部分功能，豆包音乐同样是通过问答对话的形式输入和生成音乐的，生成质量也还好，但是交互方面，不像其它音乐类产品，没有专门的页面，对话框的形式，编辑起来就不那么方便了。

歌曲生成的旋律和人声相对单调一些，另外，有200个字的限制，也没法接曲，生成的歌曲也只有59秒的长度。所以总体来看，可能生成一点短的音乐还可以，用来生成歌曲基本是不太够的，就是玩玩了。我估计也不是能力不行，大概更多的还是豆包这个偏办公助手的产品定位导致的。

优点：和豆包整合，方便使用。

缺点：歌曲字数，长度的限制都太短了，基本没法正经使用

费用：免费

天工音乐（SkyMusic）

网址：https://www.tiangong.cn/music

这个是昆仑万维的产品，AI音乐是天工AI产品中的一个

整体没有什么太出彩的地方，和海螺音乐类似，采用特定曲目风格模仿的方式来生成歌曲，但效果而言，只能说节奏大体像，曲风模拟的一般。质量一般，变化较少。加上新账号给的积分就只够试验一首的。。。所以我也就没做更多的实验和比较了。就不做优缺点评价了。

stableaudio

网址：https://stableaudio.com/generate

StableAudio只能生成纯音乐，最长可以生成3分钟。界面比较简单。你在提示词里可以填写所要的曲目的几个要素，比如是独奏还是乐团合奏，曲风，包含的乐器，情绪，风格，节拍快慢等等。当然，生成的效果如何，也和你的这些风格组合，合不合理相关了，比如说你要用笛子表演一个摇滚风格的曲目，那。。。如果你不知道怎么写，也可以使用它的模版或者随机生成上述各要素的组合参数。

优点：能详细指定乐曲的各种要素构成

缺点：质量一般吧，我是没太听出有什么特别的，总感觉生成的音乐平平无奇，留不下印象，也可能我姿势不对。

费用：免费用户一个月大概能生成10首3分钟的乐曲，12刀的付费计划不算便宜，相比于它能完成的工作来说。

artlist.io

网址：https://artlist.io

artlist严格来说，是一个视频创作的素材网站，提供包括各类音乐，音效，视频片段，视频编辑模版，LUTs和特效插件在内的各类素材的下载。使用它的付费计划，网站上的素材就可以不限制的使用，而不用担心版权问题。

但它也提供了语音合成的功能，用来做视频的旁白。也就是网站上的Voiceover功能。

据说是有不少专业视频创造者使用它来搜索素材和创建旁白。免费计划无法下载其它素材，只能试用旁白创建的功能。计费方式，貌似是按字母数计费的，一个字母一个信用点。400的信用点大概就够创建20秒左右长度的音频。所以只够你简单试验一下效果，生成完还不能下载。至于生成效果，我个人感觉还是不错的，声音比较有特色，不像其它语音生成产品，人物声音缺乏特点，这里的语音选择基本都是面向视频解说场景，各种风格非常明显。

其它素材的质量看起来也是有保障的，毕竟大部分是人工生成的商业素材，而非AI自动生成的，对视频工作者来说，按月订阅而非按量计费的计划，可能用量多的话，也还算便宜。

优点：素材质量高，旁白语音效果独特

缺点：旁白语音只支持英文，不支持中文

费用：个人玩玩不算便宜，商业用户应该还可以了。

其它几个产品简单介绍一下

boomy（LoopMagic）

网址：https://app.loopmagic.com/create

合成20秒左右一些简单的乐器音，当素材可以，当曲子还是有点困难。

music-fx

网址 https://aitestkitchen.withgoogle.com/tools/music-fx

这个是谷歌AI实验室里的一个工具，能生成30秒的无人声纯音乐，比较有特色的地方，是可以选定循环模式，这样生成的音乐首尾部分会比较接近，可能适合一些场所做循环播放的背景音乐。

通义

严格来说，通义的的全民K歌，全民舞台等模块，不算音乐生成，而是视频转绘和对口型。面向的也不是视频或音频创作者，更多的是偶尔玩梗开心一下的普通用户。

质量不错，动作和表情比较流畅，免费试用

开源软件产品

开源软件中，语音合成，音乐生成的相关项目也非常多，先简单介绍两个语音生成和音色转换的软件

CosyVoice

很多开源软件可以模拟特定语音人声，但是通常都需要提供十几到二十分钟以上的语音作为训练素材，训练完特定的模型以后才能使用。而CosyVoice只需要一段3秒左右的音频，就能模拟到80%像。我家小朋友学校，公众号文章要学生自己朗读自己被选上的作文。我家小朋友口齿不清，干这事估计录多少遍都不顺，就用CosyVoice模拟生成了一段3-5分钟左右的朗读音频交上去，反正老师应该是没有听出来是AI生成的。

CosyVoice的功能除了3秒复制音色，还提供中英文音色转换，特定的文本，生成一些内置音色的语音生成，包括添加一些语气和笑声，换气的指令等不同的功能模式。

不过这类音频生成软件，安装包依赖都比较复杂，模型文件的体积往往也比较大，依赖包的版本往往也比较老或者版本比较特殊，如果没有足够的动手能力的话，自己安装还是比较麻烦的，最方便的还是下载打包好的一键安装包。或者使用单独的一份ComfyUI免得和其他插件的依赖有很大冲突。

优点：可以免训练快速复制自己的声音音色

缺点：只能生成说话的语音，无法生成唱歌等有旋律节奏的声音。

sovits

如果需要换音色唱歌的话，可以使用Sovits，之前网上的AI孙燕姿之类的，大体就是用它来生成的。这个就需要训练模型了。当然，同样有很多一键安装包可以使用。所以部署并不困难，麻烦的主要还是自己声音的采集和训练。比如我训练自己的音色，录了一个小时的声音，做了降噪处理，然后选了其中半小时左右的声音，做了一些片段切割之类的预处理工作，最后花了几个小时，训练了3万步，整套流程下来，前后断断续续花了两三天时间才搞定。

模型训练完以后，推理部分就是音色翻唱了，这部分稍微简单一点，但也需要把原歌曲的曲和人声分离以后，单独转换人声的音色，然后再把原曲合成回去。所以也还是有一定的上手门槛的。另外，这是音色转换，不是语音生成，所以是不能无中生有的，如果要生成自己音色的声音，是需要配合别的TTS类语音生成软件来使用的。

麻烦归麻烦，这么一套搞下来，效果还是不错的，唱歌基本和本人的声音音色有九成接近，也让我这个五音不全的人能够一展歌喉了。。。

优点：音色模仿质量高，能够翻唱歌曲

缺点：需要训练模型，流程相对复杂，使用门槛高

audiocraft 和 StableAudio

前面两个都是人声的生成和转换，如果你想生成音乐的话，meta的AudioCraft（包含MusicGen和AudioGen）和前面的StableAudio都有开源项目可供下载安装，如果你不想自己折腾，也可以去他们的HuggingFace空间或者官网试用一下。效果呢，反正和商业的比，就比较一般了，AudioGen生成音效可能可以尝试一下。因为安装起来也比较麻烦，整合包也差不多30-40个G，安装了太多模型，这俩我就不折腾本地部署了，有兴趣的同学可以自己去试试看。

MusicGen网址：https://huggingface.co/spaces/facebook/MusicGen