自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【备份5】

地址跳板:语音模型训练的一些存档_哔哩哔哩_bilibili

2024-06-19 11:14:52 106

原创 【存档】4

由于游戏剧情有配音,语音集相比爱丽丝要多很多,这周的目标就是充分利用这些语音,训练出一个更好的模型。与上一周的模型相比,数据量成倍增加的模型效果更好,吞字破音电音得到了改善,语气也更加自然。由于语音文本过于分散,编写了python脚本,使其组成了符合对应格式的list文本。该整合包括分段语音和对应的文本。)不过根据视频来看,情感分类似乎优化并没有想象中的大,是否要分类有待商榷。然后再走一遍训练推理流程,训练出最后的sovits和GPT模型。(虽然这个数据量和语音清晰程度,不用手动校对也能发挥作用)

2024-05-29 21:47:27 152

原创 【存档】3

与原台词对应的语音对比后发现,模型语音的音色与角色有很高的相似度,但在情感上远不如真人的演绎。不过,如果在标点符号上加以暗示(如问号感叹号等),模型语音的情感倾向也比较明显。在推理的过程中,发现语音有一定的电音和咬字问题(模型的咬字一般偏窄)。训练过程与爱丽丝的差不多,在wiki上寻找相应的文本和语音,下载导入,校对识别文本,训练sovits和GPT,再导入输入音频进行推理。此外,三月七的语音气音和波动较多,作为参考语音时会对合成语音造成比较大的影响。下周我会翻阅更大的语音数据库,找出比较合适的参考语音。

2024-05-29 21:46:11 121

原创 【备份用】2

接下来的流程和之前的一样,打标音频→一句句按着台本校对(虽然整合包的语音识别准确率很高,但是还是挨个复制粘贴了一遍)→训练→推理。上周初步实现了一遍GPT-SoVITS的流程,这周从wiki上下载了共30分钟的音频文件,完善语音模型。结论是,扩大训练集的模型的咬字相比原模型更加自然,语气问题得到改善,但还是很大程度上依靠于参考模型。以后可能会寻找更多的语音素材,以及改变步长等参数,寻找语音模型效果优化的方向。按顺序依次下载分段语音并导入autoDL。最后另存模型,与上次的模型进行比对。

2024-05-29 21:03:01 213

原创 【备份用】1

由于本次部署仅为初步测试,仅选择了几条情绪较弱,语气较少,音调连贯的语音作为训练集。上传输入音频和输入文本。经过几次测试后感觉这一步挺重要的,很大程度上决定了输出音频的语气,最好输入音频和输入文本的应用场景一致。本项目主要需要此步骤的sovits模型和gpt模型,最后的音频用于评估模型的好坏。虽然自动识别的准确率看着蛮高的,稳妥起见还是对着音频输入相应的原生文本。输入打标后获得的字幕文本的路径,点击终端输出的网页,进入校对页面。选好模型后点击开始TTS推理,完成后点击终端输出的链接,进入网页。

2024-05-29 21:00:53 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除