阿里开源语音大模型CosyVoice：3秒还原声音，从部署到克隆的完整指南

最新推荐文章于 2025-04-21 00:15:00 发布

大模型入门教程

最新推荐文章于 2025-04-21 00:15:00 发布

阅读量6.1k

点赞数 11

文章标签：人工智能 llama AI大模型大模型

本文链接：https://blog.csdn.net/2401_85343303/article/details/140921534

版权

前言

很久之前就想给大家介绍声音克隆开源项目GPT-SoVITS ，但是看到视频教程过于复杂了，最近又出现了一个剪辑《人民的名义》的短视频非常搞笑。

我就找到了一款最新更加强大的声音克隆项目CosyVoice。CosyVoice 是阿里通义实验室在七月初开源的一款专注于自然语音合成的语音大模型，它具备多语言、多音色和细腻的情感控制能力。这个系统支持中文、英文、日文、粤语和韩语五种语言的语音生成，并且在语音合成的效果上远超传统模型。

只需3到10秒的原始音频样本，CosyVoice便能够复刻出相似的音色，包括语调和情感等细节，实现跨语种的语音合成。

CosyVoice的另一个亮点在于它对生成语音情感和韵律的精细控制，这是通过富文本或自然语言输入实现的。这种控制机制显著提高了合成语音的情感表达能力。这使得生成的语音更加栩栩如生，充满情感色彩。

部署

首先需要找到官方项目的开源地址

github.com/FunAudioLLM…

首先克隆官方项目，创建一套独立的Python虚拟环境

git clone https://github.com/FunAudioLLM/CosyVoice.git


conda create -n cosyvoice python=3.8
conda activate cosyvoice

此时已经激活了虚拟环境，现在下载项目依赖的第三方包

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

需要等待很长时间安装PyTorch

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接着安装pyini
Pynini是一个基于字符串的传播和转换的库,可以用于各种自然语言处理任务,如词性标注、名词短语提取和依赖句法分析。

conda install -y -c conda-forge pynini==2.1.5

根据文档要提前下载模型，这里不使用阿里的魔搭包下载，而是使用Git下载，前提是安装git lfs 插件：

# git模型下载，请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

模型文件非常大，又需要等待较长时间才能下载完成，但完成后即可成功使用，使用以下命令启动服务：

python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

这里有个坑，我这里是局域网访问，需要把webui.py文件中

...
demo.launch(server_port=args.port)
...

改成

...
demo.launch(server_port=args.port, server_name="0.0.0.0")
...

如果是本机访问可以忽略，这时访问局域网IP加端口号50000就能访问到这个由gradio库搭建的WebUI 网页应用了

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

测试

这里只简单测试一下，来找一段《还珠格格》中紫薇的语音素材，让它说一段毫无逻辑的台词。台词内容：

我不敢苟同，因为我个人认为，这个意大利面就应该拌42号混凝土，因为这个螺丝钉的长度，它很容易会直接影响到挖掘机的扭矩你知道吧，你往里砸的时候，一瞬间它就会产生大量的高能蛋白，俗称ufo，会严重影响经济的发展，甚至对整个太平洋以及充电器都会造成一定的核污染，你知道啊？再者说，根据这个勾股定理，你可以很容易地推断出人工饲养的东条英机它是可以捕获野生的三角函数的，所以说这个秦始皇的切面是否具有放射性啊，特朗普的N次方是否含有沉淀物，都不影响这个沃尔玛跟维尔康在南极会合

第一步上传原素材的音频文件（可能需要处理以使效果更好），第二步输入原素材的音频文件对应的字幕，第三步输入想要的生成的语音的文案，最后一步点击生成，耐心等待

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等待了30秒生成了21秒的视频，效果非常不错，生成的语音的效果跟素材非常相似，只是长段的语音文案生成时可能会丢失一部分内容（可以通过自己手动拼接处理这个问题）。

最后

又写了一篇从零开始部署开源大模型项目的文章，之前写了很多有兴趣的同学可以找到我的主页看看，后面也会继续关注相关的内容，如果感兴趣可以继续关注我，或者可以留言告诉我想看什么大模型实测效果。如果觉得内容不错，欢迎点个关注
在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述