m0_75180068-CSDN博客

原创【备份5】

地址跳板：语音模型训练的一些存档_哔哩哔哩_bilibili

2024-06-19 11:14:52 106

由于游戏剧情有配音，语音集相比爱丽丝要多很多，这周的目标就是充分利用这些语音，训练出一个更好的模型。与上一周的模型相比，数据量成倍增加的模型效果更好，吞字破音电音得到了改善，语气也更加自然。由于语音文本过于分散，编写了python脚本，使其组成了符合对应格式的list文本。该整合包括分段语音和对应的文本。）不过根据视频来看，情感分类似乎优化并没有想象中的大，是否要分类有待商榷。然后再走一遍训练推理流程，训练出最后的sovits和GPT模型。（虽然这个数据量和语音清晰程度，不用手动校对也能发挥作用）

2024-05-29 21:47:27 152

原创【存档】3

与原台词对应的语音对比后发现，模型语音的音色与角色有很高的相似度，但在情感上远不如真人的演绎。不过，如果在标点符号上加以暗示（如问号感叹号等），模型语音的情感倾向也比较明显。在推理的过程中，发现语音有一定的电音和咬字问题（模型的咬字一般偏窄）。训练过程与爱丽丝的差不多，在wiki上寻找相应的文本和语音，下载导入，校对识别文本，训练sovits和GPT，再导入输入音频进行推理。此外，三月七的语音气音和波动较多，作为参考语音时会对合成语音造成比较大的影响。下周我会翻阅更大的语音数据库，找出比较合适的参考语音。

2024-05-29 21:46:11 121

原创【备份用】2

接下来的流程和之前的一样，打标音频→一句句按着台本校对（虽然整合包的语音识别准确率很高，但是还是挨个复制粘贴了一遍）→训练→推理。上周初步实现了一遍GPT-SoVITS的流程，这周从wiki上下载了共30分钟的音频文件，完善语音模型。结论是，扩大训练集的模型的咬字相比原模型更加自然，语气问题得到改善，但还是很大程度上依靠于参考模型。以后可能会寻找更多的语音素材，以及改变步长等参数，寻找语音模型效果优化的方向。按顺序依次下载分段语音并导入autoDL。最后另存模型，与上次的模型进行比对。

2024-05-29 21:03:01 213

原创【备份用】1

由于本次部署仅为初步测试，仅选择了几条情绪较弱，语气较少，音调连贯的语音作为训练集。上传输入音频和输入文本。经过几次测试后感觉这一步挺重要的，很大程度上决定了输出音频的语气，最好输入音频和输入文本的应用场景一致。本项目主要需要此步骤的sovits模型和gpt模型，最后的音频用于评估模型的好坏。虽然自动识别的准确率看着蛮高的，稳妥起见还是对着音频输入相应的原生文本。输入打标后获得的字幕文本的路径，点击终端输出的网页，进入校对页面。选好模型后点击开始TTS推理，完成后点击终端输出的链接，进入网页。

2024-05-29 21:00:53 198

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_75180068的博客

原创【备份5】

原创【存档】4

原创【存档】3

原创【备份用】2

原创【备份用】1

空空如也

空空如也

原创 【备份5】

原创 【存档】4

原创 【存档】3

原创 【备份用】2

原创 【备份用】1

空空如也

空空如也

原创【备份5】

原创【存档】4

原创【存档】3

原创【备份用】2

原创【备份用】1