CosyVoice是由阿里通义实验室开源的一款多语言语音理解模型,它主要聚焦于高质量的语音合成,能够生成自然且逼真的语音。
CosyVoice模型经过超过15万小时的数据训练,支持中文、英语、日语、粤语和韩语多种语言的合成,且在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。
CosyVoice支持one-shot音色克隆技术,仅需3~10秒的原始音频即可生成模拟音色,包括韵律、情感等细节。
CosyVoice展现了零样本学习的能力,能够通过一个简短的参考语音样本复制任意声音,实现内容一致性和说话者相似度的高度还原。
CosyVoice能够对生成的语音进行细粒度的情感、语调、语速和音调控制,使合成的语音更加丰富和具有表现力。
github项目地址:https://github.com/FunAudioLLM/CosyVoice。
一、环境安装
1、python环境
建议安装python版本在3.10以上。
2、pip库安装
pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
3、CosyVoice-300M模型下载:
git lfs install
git clone https://www.modelscope.cn