[ComfyUI]最新声音克隆技术，配合数字人无敌了

最新推荐文章于 2025-03-28 10:50:11 发布

AI绘画百宝箱

最新推荐文章于 2025-03-28 10:50:11 发布

阅读量1k

点赞数 14

分类专栏： comfyui stablediffusion AI绘画文章标签： AI绘画 stable diffusion AI comfyui AIGC 插件

本文链接：https://blog.csdn.net/m0_59162559/article/details/146174202

版权

stablediffusion 同时被 3 个专栏收录

71 篇文章

订阅专栏

AI绘画

57 篇文章

订阅专栏

comfyui

15 篇文章

订阅专栏

今天分享一个刚出来的声音克隆项目，很棒的，结合数字人开口说话，可以实现专属定制，效果不输付费的哟~

一、介绍

今天给大家介绍个新东西，声音克隆项目，之前好像这块都没分享过，前几天不是分享了Sonic这个照片开口说话的吗，最近有个群友找到我说，有没有这样的工作流，可以直接在ComfyUI里面集成声音克隆的项目。

今天就研究了一天，本来是要做另外一个项目的，但是环境太难安装了，我搞了一天心态崩了，然后就转做第二个插件的，这个安装容易一些。

这个技术是Step-Audio，非常新的一个开源项目，2月17号才开源的。

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点：

1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。
高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖，生成高质量的合成音频数据，并同步开源首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。
精细语音控制: 支持多种情绪（如生气，高兴，悲伤）、方言（包括粤语、四川话等）和唱歌（包括 RAP、干声哼唱）的精准调控，满足用户对多样化语音生成的需求。
扩展工具调用: 通过 ToolCall 机制和角色扮演增强，进一步提升其在 Agents 和复杂任务中的表现。

更多详情参见：

项目主页：https://github.com/stepfun-ai/Step-Audio/blob/main/README_CN.md

在线试用：https://yuewen.cn/chats/new

看到这里，是不是挺心动的，目前已经有大佬把它集成到ComfyUI了，现在带大家来体验。

二、相关安装

这份完整版的插件已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

插件地址：https://github.com/billwuhao/ComfyUI_StepAudioTTS

git clone https://github.com/billwuhao/ComfyUI_StepAudioTTS.git

安装好插件后先别急的运行，有个地方要调整下，这个插件依赖的版本号很多都是等号的，这个有问题，需要我们自己打开 requirements.txt 文件，把依赖版本中的 == 改成 >=，或者直接注释掉也行，缺哪个再手动安装。

模型的话，有3块

Step-Audio-Tokenizer：https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
下载模型并放置 ComfyUI/models/TTS 目录下
Step-Audio-TTS-3B：https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
下载模型并放置 ComfyUI/models/TTS 目录下。

还有第三个，我看官网最新的还需要把插件目录下的Step-Audio-speakers也移动到 ComfyUI\models\TTS目录下，完整截图如下

官方给出最低8G可运行。

三、工作流说明

工作流比较简单，主要就2个

语音生成

系统内置了4个声音，到时候选择即可

还可以选择心情、语言国家、表达方式（哼唱、RPA）、语速等。

本来还可以自定义的，就是里面custom_speaker这个参数，可以选择非默认的，只要你按配置配置好，就可以使用非默认的，不过我测试下来，发现插件有bug，不生效，如果你custom_speake为空的话，还会报错，你要随便写个字，系统会根据上面speaker选项来生成。

官方上是这么说的。

我们来看几个案例吧，同一个音色生成不同国家的声音，声音我最后都合成到图片上了，这样直观一些，就是生成的声音再结合之前的Sonic数字人工作流。

中文
日文
韩文
语音克隆

第二种就是克隆了，根据你上传的一段音频，然后直接配置文本，他就会参考你上传的音色来匹配。

本来右边clone_text应该是填写你上传的声音的文本的，但是好像会串词，所以可以先为空。

我找个派大星的，来生成几组案例看看。
默认音色：

文案：

我养你啊，我可以养你啊，我是一个演员，啊哈哈哈

中文

四川

粤语

几个注意点

文本是中文的，你可以选择中文、四川、粤语
如果是想要外语的，你需要把中文先翻译成外国语言，然后再选择对应的语言类型才可以，他不会自己帮你翻译成外文的。

四、云端镜像

大家如果没有本地 ComfyUI 环境，或者本地显卡配置低于 16G 的，可以使用我部署的云镜像，可直接加载使用。后续分享的工作流都会更像到镜像中，一周更新一次，方便大学学习。
这份完整版的AI新手入门资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述