AI女友养成记 CosyVoice2 windows部署

本期准备了模型,素材,语音文件以及长文本的纯人声配音测试,表现稳定,配音迅速,可对比chatTTS的批量文本配音,支持调节语速,3s实现极速语音复制,测试了长文本的小说配音,语速均匀,不会出现语速不符,目前还没有语气助词的配音,可以结合TTS实现,可支持ollama实现实时语音对话。
原文完整版:https://mp.weixin.qq.com/s/1-LlA-YAzZJZ3xxXMCpdsQ?token=1114085074&lang=zh_CN

CosyVoice 是什么?

CosyVoice 是阿里巴巴通义实验室推出的一款开源语音生成大模型,专注于语音合成技术。它通过先进的技术架构,能够将文本内容转化为高度自然、拟人化的语音输出。其最新版本 CosyVoice 2.0 在发音准确性、音色一致性、韵律自然度等方面都有显著提升,并支持多语言和跨语言语音合成。

CosyVoice 的应用场景

智能助手和聊天机器人:为智能助手提供自然流畅的语音输出,提升用户体验。

有声读物和音频内容制作:生成高质量的有声读物、音频书籍,支持多种语言和方言。

视频配音和解说:为教育视频、企业宣传片、电影和电视剧等提供配音服务。

智能客服和呼叫中心:在客户服务中提供语音交互,提高服务效率和客户满意度。

教育和语言学习:辅助语言学习,提供标准发音示范,帮助学习者提高发音准确性。

娱乐和内容创作:用于制作名人模仿秀、动画配音等,为观众带来全新的视听体验。

如何实现实时对话?

CosyVoice 2.0 支持流式推理,能够实现实时语音合成,适合需要即时响应的场景。以下是实现实时对话的关键技术:

流式推理:CosyVoice 2.0 提出了离线和流式一体化建模方案,支持双向流式语音合成,首包合成延迟低至150ms。

低延迟设计:通过分块感知因果流匹配模型(Chunk-Aware Causal Flow Matching Model),模型能够在保证高质量语音输出的同时,快速响应用户输入。

多语言和情感控制:支持多语言输入和情感指令控制,用户可以实时调整语音的情感、语气和风格。

如何部署和使用?

图片

不建议使用整合包,下载全量模型版本,支持语速调节

视频版本

文字版本

下载项目

本地下载链接:https://pan.quark.cn/s/dc4ad7aac2ab

git 安装

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

If you failed to clone submodule due to network failures, please run following command until success

cd CosyVoice
git submodule update --init --recursive
2.环境配置

conda create -n cosyvoice -y python=3.10
conda activate cosyvoice

pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.

conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
下载模型

SDK模型下载

from modelscope import snapshot_download
snapshot_download(‘iic/CosyVoice2-0.5B’, local_dir=‘pretrained_models/CosyVoice2-0.5B’)
snapshot_download(‘iic/CosyVoice-300M’, local_dir=‘pretrained_models/CosyVoice-300M’)
snapshot_download(‘iic/CosyVoice-300M-25Hz’, local_dir=‘pretrained_models/CosyVoice-300M-25Hz’)
snapshot_download(‘iic/CosyVoice-300M-SFT’, local_dir=‘pretrained_models/CosyVoice-300M-SFT’)
snapshot_download(‘iic/CosyVoice-300M-Instruct’, local_dir=‘pretrained_models/CosyVoice-300M-Instruct’)
snapshot_download(‘iic/CosyVoice-ttsfrd’, local_dir=‘pretrained_models/CosyVoice-ttsfrd’)
cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py3-none-any.whl
pip install ttsfrd-0.4.2-cp310-cp310-linux_x86_64.whl
启动

python webui.py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值