本期准备了模型,素材,语音文件以及长文本的纯人声配音测试,表现稳定,配音迅速,可对比chatTTS的批量文本配音,支持调节语速,3s实现极速语音复制,测试了长文本的小说配音,语速均匀,不会出现语速不符,目前还没有语气助词的配音,可以结合TTS实现,可支持ollama实现实时语音对话。
原文完整版:https://mp.weixin.qq.com/s/1-LlA-YAzZJZ3xxXMCpdsQ?token=1114085074&lang=zh_CN
CosyVoice 是什么?
CosyVoice 是阿里巴巴通义实验室推出的一款开源语音生成大模型,专注于语音合成技术。它通过先进的技术架构,能够将文本内容转化为高度自然、拟人化的语音输出。其最新版本 CosyVoice 2.0 在发音准确性、音色一致性、韵律自然度等方面都有显著提升,并支持多语言和跨语言语音合成。
CosyVoice 的应用场景
智能助手和聊天机器人:为智能助手提供自然流畅的语音输出,提升用户体验。
有声读物和音频内容制作:生成高质量的有声读物、音频书籍,支持多种语言和方言。
视频配音和解说:为教育视频、企业宣传片、电影和电视剧等提供配音服务。
智能客服和呼叫中心:在客户服务中提供语音交互,提高服务效率和客户满意度。
教育和语言学习:辅助语言学习,提供标准发音示范,帮助学习者提高发音准确性。
娱乐和内容创作:用于制作名人模仿秀、动画配音等,为观众带来全新的视听体验。
如何实现实时对话?
CosyVoice 2.0 支持流式推理,能够实现实时语音合成,适合需要即时响应的场景。以下是实现实时对话的关键技术:
流式推理:CosyVoice 2.0 提出了离线和流式一体化建模方案,支持双向流式语音合成,首包合成延迟低至150ms。
低延迟设计:通过分块感知因果流匹配模型(Chunk-Aware Causal Flow Matching Model),模型能够在保证高质量语音输出的同时,快速响应用户输入。
多语言和情感控制:支持多语言输入和情感指令控制,用户可以实时调整语音的情感、语气和风格。
如何部署和使用?
图片
不建议使用整合包,下载全量模型版本,支持语速调节
视频版本
文字版本
下载项目
本地下载链接:https://pan.quark.cn/s/dc4ad7aac2ab
git 安装
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
If you failed to clone submodule due to network failures, please run following command until success
cd CosyVoice
git submodule update --init --recursive
2.环境配置
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
下载模型
SDK模型下载
from modelscope import snapshot_download
snapshot_download(‘iic/CosyVoice2-0.5B’, local_dir=‘pretrained_models/CosyVoice2-0.5B’)
snapshot_download(‘iic/CosyVoice-300M’, local_dir=‘pretrained_models/CosyVoice-300M’)
snapshot_download(‘iic/CosyVoice-300M-25Hz’, local_dir=‘pretrained_models/CosyVoice-300M-25Hz’)
snapshot_download(‘iic/CosyVoice-300M-SFT’, local_dir=‘pretrained_models/CosyVoice-300M-SFT’)
snapshot_download(‘iic/CosyVoice-300M-Instruct’, local_dir=‘pretrained_models/CosyVoice-300M-Instruct’)
snapshot_download(‘iic/CosyVoice-ttsfrd’, local_dir=‘pretrained_models/CosyVoice-ttsfrd’)
cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py3-none-any.whl
pip install ttsfrd-0.4.2-cp310-cp310-linux_x86_64.whl
启动
python webui.py