mac部署GPT-SoVITS,生成粤语踩坑点及使用记录

自己录音,普通话或者粤语

注意:

与在其他设备上训练的模型相比,在mac上使用gpu训练的模型的质量明显较低,因此我们暂时使用cpu代替。

  1. Install Xcode command-line tools by running xcode-select --install.
  2. Install FFmpeg by running brew install ffmpeg.
  3. Install the program by running the following commands:
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

注意py的版本

激活环境:

conda activate GPTSoVits 

在macos上训练自己的声音

激活环境:

conda activate GPTSoVits 

第一踩坑点

启动命令:

python3 webui.py

之后,无法跳转,显示超时

File "/opt/anaconda3/envs/GPTSoVits/lib/python3.9/site-packages/pydantic/_internal/_generate_schema.py", line 558, in _unknown_type_schema
    raise PydanticSchemaGenerationError(
pydantic.errors.PydanticSchemaGenerationError

解决方法:

pip uninstall fastapi
pip install fastapi==0.112.2

成功跑起:

第二个踩坑点

是在微调训练gpt报错

RuntimeError: Index tensor must have the same number of dimensions as self tensor
return torch.zeros_like(preds_oh, dtype=torch.int32).scatter_(-1, result.unsqueeze(1).unsqueeze(1), 1)
RuntimeError: Index tensor must have the same number of dimensions as self tensor
​

解决方法:

pip install torchmetrics==1.5

最后成功跑起

效果:

CondaError: Run 'conda init' before 'conda activate'

利用Mobaxterm连接远程服务器,在创建conda环境后报错。

输入conda init后返回No action taken.

解决方法

  1. 输入source activate,后发现前面多了(base)

  2. 输入conda activate xxx(此处为自定义的环境名称),后发现(base)变为(xxx)

参考:https://zhuanlan.zhihu.com/p/683118485

使用教程记录

 语音切割,降噪,进行选择语音,就可以打标了

 打标界面

 之后可以进行训练了

 微调模型

 

终端 

### 使用 GPT-SOVITS 的教程指南 #### 加载预训练模型并初始化环境设置 为了使用 GPT-SOVITS,首先需要安装必要的依赖库以及加载预训练好的模型。通常情况下,这涉及到克隆官方 GitHub 仓库,并按照说明文档中的指示来配置开发环境。 ```bash git clone https://github.com/your-repo/GPT-SOVITS.git cd GPT-SOVITS pip install -r requirements.txt ``` 对于具体版本控制和依赖管理,请参照项目主页上的最新指导[^1]。 #### 数据准备与前处理 数据集的选择至关重要。一般而言,语音合成任务的数据集应包含高质量的音频片段及其对应的文本转录本。这些数据需经过清洗、标准化等一系列预处理操作才能被用于训练或推理过程。 针对特定应用场景下的自定义文本类型处理,可以通过调整 `docs_path` 参数指定待解析文件格式列表,默认会采用框架内置的支持格式[^2]。 #### 配置参数调优 在实际应用过程中,可能还需要对一些超参数进行微调以适应不同的硬件条件或是优化性能表现。比如批量大小(batch size),学习率(learning rate)等关键因素都会影响最终的效果。 #### 运行预测脚本 完成上述准备工作之后,就可以利用提供的测试样例来进行初步验证: ```python from gpt_sovits.inference import infer audio_output = infer(text="你好世界", model_dir="./pretrained_models/") ``` 这段简单的 Python 脚本展示了如何通过调用 `infer()` 函数实现从输入文字到输出语音的过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值