阿里声音克隆模型cosyvoice2，支持音色预训练/3s极速克隆/自然语言控制/自动识别/音色保存

最新推荐文章于 2025-03-26 16:09:00 发布

Cherry Xie

最新推荐文章于 2025-03-26 16:09:00 发布

阅读量954

点赞数 4

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/qq_42691309/article/details/146169309

版权

人工智能专栏收录该内容

75 篇文章

订阅专栏

简介

在这里插入图片描述

CosyVoice 2 是一个开源模型，用户可以根据硬件条件进行部署和推理。当前版本为功能扩充（预训练音色/3s极速复刻/自然语言控制/自动识别/音色保存/API），支持 Windows / Linux / MacOS。

最低硬件要求

CPU：普通个人电脑即可运行，但推理速度较慢，适合试用或小规模测试。
内存：至少 8GB RAM，建议 16GB 以确保流畅运行。
存储：预训练模型和依赖文件约需 10-20GB 空间（具体取决于选择的模型版本，如 CosyVoice2-0.5B 或 CosyVoice-300M）。
操作系统：支持 Ubuntu、CentOS、Windows 等主流系统，推荐 Linux（如 Ubuntu 22.04）以获得最佳兼容性。

核心技术与性能优势

语音生成质量提升

采用监督离散语音标记技术，结合有限标量量化和块感知因果流匹配模型，显著优化发音准确性、音色一致性及音质表现。支持多语言与跨语言合成，覆盖中文、英文等多种语言，满足国际化需求同时instruct合成音频，支持上海话、四川话、粤语、河南话等多种方言。

实时性与低延迟

支持双向流式语音合成，首包合成延迟仅150ms ，适合智能客服、虚拟助手等实时交互场景。流式推理技术使模型在生成过程中动态调整，避免传统语音合成的“吞字漏字”问题。

零样本与快速克隆能力

仅需3秒语音样本即可完成音色克隆，且支持细粒度控制（如语速、语调），降低语音定制门槛。模型参数规模达0.5B ，兼顾性能与资源效率。

安装

在这里插入图片描述

Linux & macOS

conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

python webui.py --port 8080 --open

Linux 可安装 ttsfrd 提升文本归一化性能（可选）


sudo apt-get install -y git build-essential curl wget ffmpeg unzip git git-lfs sox libsox-dev nvidia-cuda-toolkit

git lfs install
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl