再探so-vits-svc

最新推荐文章于 2025-03-07 20:47:47 发布

唯鹿

最新推荐文章于 2025-03-07 20:47:47 发布

阅读量2.1k

点赞数 27

分类专栏： AI 文章标签： so-vits-svc

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_17766199/article/details/137717826

版权

AI 专栏收录该内容

11 篇文章

订阅专栏

本文讲述了作者在使用So-VITS-SVC4.1进行AI配音时遇到的咬字问题，发现是特征编码器导致。通过尝试hubertsoft和whisper-ppg，作者发现hubertsoft在咬字能力上有优势，但存在音色泄露问题。给出了使用hubertsoft的方法、F0预测器选择以及处理响度匹配的建议，以提高语音转换质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

去年体验了一遍so-vits-svc 4.1，做了一个AI杰伦的模型。按照当时的条件来说，结果我是比较满意的。最近有个需求，想做AI配音，大致就是先将文字转成语音，然后通过修改音色实现类似真人说话的效果。

遇到问题

起初就是按部就班之前的经验去训练，但是结果就有些不尽人意。最大的问题就是咬字，比如”cheng“的发音会读成”che“。

即使又训练了几万步也还是没有改善，起初是怀疑数据集毕竟少，因为只有十分钟左右的干声。后面觉得不对，这是提取源音频语音特征，是音色转换。数据少最多就是转换后声音不像。

后面查阅了一些资料，发现是特征编码器的关系。默认使用的是vec768l12。

优点，最还原音色、有大型底模、支持响度嵌入。
缺点，咬字能力较弱。

当然这个咬字也和你的输入源有关，我当时换了一个TTS的音色，对应这个字的咬字就好了一些。但是这总归不是一个办法，治标不治本。谁知道这个音色的那个读音又不行了。

所以如果你对咬字比较看重，那就建议使用hubertsoft或whisper-ppg。

优点，咬字能力强。
缺点，音色泄露。

音色泄露指的是输出的音色向底模/推理输入源的原始音色接近，模型说话人越多，音色泄露越严重。考虑到大多数人都希望尽可能还原目标说话人的音色，因此音色泄露被认为是一种不受欢迎的结果。

使用方法，在自动划分训练集、验证集，以及自动生成配置文件这步指定speech_encoder：

python preprocess_flist_config.py --speech_encoder hubertsoft

然后下载hubert-soft-0d54a1f4.pt文件放在pretrain目录下。下载链接见文档。

然后是f0预测器的选择，默认rmvpe效果不错，如果想在低音部分有更好表现，可以选择harvest。我训练的是男声，所以选择了它，但我实际对比rmvpe没有听出来区别。

python preprocess_hubert_f0.py --f0_predictor harvest

另外还有一个小细节，可以看看是否需要跳过响度匹配。

脚本 resample.py，默认的响度匹配是匹配到 0db。这可能会造成音质的受损。而 python 的响度匹配包 pyloudnorm 无法对电平进行压限，这会导致爆音。

导致的结果就是准备的音频问题不大，但是推理出的效果音频会有杂音。所以如果自己的音频声音大小基本一致，可以跳过响度匹配，避免负优化。

python resample.py --skip_loudnorm

推理

语音转换时推荐开启自动f0预测，开启后相似度有明显提升。也可以改善音色泄露的问题。
请添加图片描述

我对比了两次不同方案的推理结果，音色上差别不大，但是后者咬字明显加强。所以对于转换语音的场景，建议使用这套方案。歌曲的话，还是之前的方案。

参考

So-VITS-SVC 4.1 整合包完全指南

博客等级

码龄11年

博客专家认证

158
原创

1611
点赞

2105
收藏

2552
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

so-vits-svc 4.1 详细使用记录
乔治的快乐生活: 你这个方法，根本起不来啊
so-vits-svc 4.1 详细使用记录
乔治的快乐生活: 显示No matching distribution found for omegaconf==20.0.6 咋解决
so-vits-svc 4.1 详细使用记录
mz2020p: 楼主大大，预处理之后单个人声的总共时长在多少合适？还有一点想请教的是，我用UVR5分离出的人声中有一点洞箫的声音，怎么才能获得更纯的人声？
so-vits-svc 4.1 详细使用记录
唯鹿: 依赖冲突，pip install omegaconf==2.0.6 pip install hydra-core==1.0.7
so-vits-svc 4.1 详细使用记录
weixin_71425790: 楼主楼主您知道这样的报错是为什么吗 INFO: pip is looking at multiple versions of hydra-core to determine which version is compatible with other requirements. This could take a while. ERROR: Cannot install -r requirements_win.txt (line 2) and fairseq because these package versions have conflicting dependencies. The conflict is caused by: fairseq 0.12.2 depends on omegaconf<2.1 hydra-core 1.0.7 depends on omegaconf<2.1 and >=2.0.5 To fix this you could try to: 1. loosen the range of package versions you've specified 2. remove package versions to allow pip to attempt to solve the dependency conflict ERROR: ResolutionImpossible: for help visit https://pip.pypa.io/en/latest/topics/dependency-resolution/#dealing-with-dependency-conflicts

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。