Vits2.3-Extra-v2:中文特化，如何训练及推理（新手教程）

玩人工智能的辣条哥

已于 2024-03-12 18:01:23 修改

阅读量830

点赞数 2

分类专栏：开源AI项目文章标签：人工智能 Bert-Vits2 声音克隆

于 2024-02-11 22:04:09 首次发布

本文链接：https://blog.csdn.net/weixin_42672685/article/details/135854100

版权

开源AI项目专栏收录该内容

9 篇文章 1 订阅 ¥199.90 ¥299.90

订阅专栏

超级会员免费看

本文档提供Vits2.3-Extra-v2针对中文的训练和推理详细步骤。首先，通过auto_DataLabeling工具切分和标注音频数据，然后对音频进行重采样并生成Bert特征文件。接着，配置config.yml文件并开始训练，每千步保存一次模型。训练完成后，选择最佳模型进行推理，启动web服务进行音频合成。

摘要由CSDN通过智能技术生成

环境：

Vits2.3-Extra-v2:中文特化修复版

auto_DataLabeling

干声10分钟左右.wav

问题描述：

Vits2.3-Extra-v2:中文特化，如何训练及推理（新手教程）

解决方案：

一、准备数据集

切分音频

本次音频数据自己录制干声10分钟左右

1.运行auto_DataLabeling\slicer-gui\slicer-gui.exe

2.点击左上角Add Audio Files，导入源音频文件

在这里插入图片描述

静音检测
本应用根据 RMS（均方根）来测量音频的安静度并检测静音部分，计算每个帧的 RMS 值（帧长度设为 hop size（跳跃步长）），RMS 低于 threshold（阈值）的所有帧都将被视为静默帧。

音频切片
一旦检测到自上次切片以来的有效（声音）

了解本专栏

超级会员免费看

玩人工智能的辣条哥

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
Vits2.3-Extra-v2:中文特化，如何训练及推理（新手教程）

Vits2.3-Extra-v2:中文特化修复版干声10分钟左右.wav。
复制链接

扫一扫

专栏目录