AI女友养成记 CosyVoice2 windows部署

本文链接：https://blog.csdn.net/weixin_42373241/article/details/145307901

本期准备了模型，素材，语音文件以及长文本的纯人声配音测试，表现稳定，配音迅速，可对比chatTTS的批量文本配音，支持调节语速，3s实现极速语音复制，测试了长文本的小说配音，语速均匀，不会出现语速不符，目前还没有语气助词的配音，可以结合TTS实现，可支持ollama实现实时语音对话。
原文完整版：https://mp.weixin.qq.com/s/1-LlA-YAzZJZ3xxXMCpdsQ?token=1114085074&lang=zh_CN

CosyVoice 是什么？

CosyVoice 是阿里巴巴通义实验室推出的一款开源语音生成大模型，专注于语音合成技术。它通过先进的技术架构，能够将文本内容转化为高度自然、拟人化的语音输出。其最新版本 CosyVoice 2.0 在发音准确性、音色一致性、韵律自然度等方面都有显著提升，并支持多语言和跨语言语音合成。

CosyVoice 的应用场景

智能助手和聊天机器人：为智能助手提供自然流畅的语音输出，提升用户体验。

有声读物和音频内容制作：生成高质量的有声读物、音频书籍，支持多种语言和方言。

视频配音和解说：为教育视频、企业宣传片、电影和电视剧等提供配音服务。

智能客服和呼叫中心：在客户服务中提供语音交互，提高服务效率和客户满意度。

教育和语言学习：辅助语言学习，提供标准发音示范，帮助学习者提高发音准确性。

娱乐和内容创作：用于制作名人模仿秀、动画配音等，为观众带来全新的视听体验。

如何实现实时对话？

CosyVoice 2.0 支持流式推理，能够实现实时语音合成，适合需要即时响应的场景。以下是实现实时对话的关键技术：

流式推理：CosyVoice 2.0 提出了离线和流式一体化建模方案，支持双向流式语音合成，首包合成延迟低至150ms。

低延迟设计：通过分块感知因果流匹配模型（Chunk-Aware Causal Flow Matching Model），模型能够在保证高质量语音输出的同时，快速响应用户输入。

多语言和情感控制：支持多语言输入和情感指令控制，用户可以实时调整语音的情感、语气和风格。

如何部署和使用？

图片

不建议使用整合包，下载全量模型版本，支持语速调节

视频版本

文字版本

下载项目

本地下载链接：https://pan.quark.cn/s/dc4ad7aac2ab

git 安装

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

If you failed to clone submodule due to network failures, please run following command until success

cd CosyVoice
git submodule update --init --recursive
2.环境配置

conda create -n cosyvoice -y python=3.10
conda activate cosyvoice

pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.

conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
下载模型

SDK模型下载

from modelscope import snapshot_download
snapshot_download(‘iic/CosyVoice2-0.5B’, local_dir=‘pretrained_models/CosyVoice2-0.5B’)
snapshot_download(‘iic/CosyVoice-300M’, local_dir=‘pretrained_models/CosyVoice-300M’)
snapshot_download(‘iic/CosyVoice-300M-25Hz’, local_dir=‘pretrained_models/CosyVoice-300M-25Hz’)
snapshot_download(‘iic/CosyVoice-300M-SFT’, local_dir=‘pretrained_models/CosyVoice-300M-SFT’)
snapshot_download(‘iic/CosyVoice-300M-Instruct’, local_dir=‘pretrained_models/CosyVoice-300M-Instruct’)
snapshot_download(‘iic/CosyVoice-ttsfrd’, local_dir=‘pretrained_models/CosyVoice-ttsfrd’)
cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py3-none-any.whl
pip install ttsfrd-0.4.2-cp310-cp310-linux_x86_64.whl
启动

python webui.py