CosyVoice安装过程详解

CosyVoice安装过程详解

安装过程参考官方文档

前情提要

  1. 环境:Windows子系统WSL下安装的Ubunt22.4
  2. python环境管理:MiniConda3
  3. git

1. Clone代码

$ git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# 若是submodule下载失败,要先进入CosyVoice目录再执行以下命令,可以多次执行直到submodule安装成功,会有Successfully提示。
cd CosyVoice
git submodule update --init --recursive

2. 创建虚拟环境

官方使用conda,本次示例使用的是miniconda,都是一样的。

$ conda create -n cosyvoice python=3.10
# 激活环境
$ conda activate cosyvoice
# 安装 pynini
$ pynini是WeTextProcessing所需,若是没有用到ttsfrd的话,默认是使用WeTextProcessing,
$ conda install -y -c conda-forge pynini==2.1.5
# 安装依赖包
# 这是基于刚刚我们进入的CosyVoice目录下执行的命令,若是执行失败,请先注意一下执行文件所在目录
$ pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
# 若是conda环境已经添加阿里云源的话,-i后面的参数可忽略
# 如果有遇到sox安装问题的话,可执行以下命令
# ubuntu
$ sudo apt-get install sox libsox-dev
# centos
$ sudo yum install sox sox-devel

3. 下载模型

本示例使用git下载,若是git下载不下来,可去魔搭社区搜索下载

# 创建模型存放目录,注意目前所在目录依旧是在CosyVoice/下
$ mkdir -p pretrained_models
# git clone 模型,命令分开执行,可以按需下载所要的模型
$ git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
$ git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
$ git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
$ git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
$ git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
$ git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

注意这里:若是需要ttsfrd模型,那要执行以下步骤,若是不需要就忽略它

# 安装ttsfrd模型
$ cd pretrained_models/CosyVoice-ttsfrd/
$ unzip resource.zip -d .
$ pip install ttsfrd_dependency-0.1-py3-none-any.whl
$ pip install ttsfrd-0.4.2-cp310-cp310-linux_x86_64.whl

PS: 下载下来的ttsfrd有两个包,一个是cp38和cp310,旧的官方文档里python是3.8,那就选择cp38的包,本示例python=3.10,所以用的是cp310的包
在这里插入图片描述

4. 添加环境变量

这条命令不知道是不是tts安装时所需,我第一次安装时没有执行这条命令也是可以运行。

$ export PYTHONPATH=third_party/Matcha-TTS

5. 运行UI

在CosyVoice目录下执行以下命令,可打开UI页面快速熟悉。

$  python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M
# --model_dir指向刚刚我们下载的模型地址,可启动不同的模型试试看

6. 结束

### 声音克隆 API 服务概述 声音克隆 API 提供了一种便捷的方式,使开发人员能够集成先进的语音合成能力到应用程序中。这类API允许用户上传目标说话者的音频样本,并返回一个可以用于生成该说话者风格的新语音片段的服务。 #### PlayHT 的 Python SDK 支持多样化的声纹选择 PlayHT提供了预构建的声音选项以及支持创建自定义的声音克隆来适应各种应用场景的需求[^1]。这使得开发者不仅限于使用平台默认提供的多种高质量的人工智能驱动的发音人,还可以根据特定业务场景定制独一无二的声音特性。 ```python from pyht import Client client = Client(api_key='your_api_key') cloned_voice_id = client.create_custom_voice(audio_sample_path="path_to_audio_file")['id'] text_to_speak = "这是测试文本" audio_response = client.text_to_speech(text=text_to_speak, voice_id=cloned_voice_id) with open('output.mp3', 'wb') as file: file.write(audio_response.content) ``` #### GE2E 声音克隆技术详解 GE2E(Global Epochal Encoder)是一种基于深度学习框架下的声音克隆解决方案,其核心在于通过对大量真实世界中的讲话录音进行分析训练,从而捕捉并模仿个体独特的发声模式[^2]。此过程涉及几个关键技术环节: - **数据采集**:获取足够的代表性语料库作为输入材料; - **特征抽取**:运用算法解析原始信号得到可用于机器理解的形式化描述; - **模型训练**:迭代优化神经网络参数直至达到预期性能指标; - **实际部署**:将经过充分验证后的系统应用于生产环境当中。 #### 使用 CosyVoice 构建本地 TTS 和声音克隆 API 对于希望拥有更高控制度或隐私保护需求的企业来说,CosyVoice 是一种可行的选择方案之一。该项目开源且易于安装配置,在Docker容器内启动后即可快速上线一套完整的TTS及声音克隆Web接口[^3]。 ```bash docker run -it --gpus '"device=1"' -p 50000:50000 lucferreira/cosyvoice:v1.0 /bin/bash cd CosyVoice && export PYTHONPATH=third_party/Matcha-TTS python3 api.py ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值