【MomoTalk团队周报】第7周

本周报告了团队在大语言模型CharacterGLM-6B和语音克隆模型GPT-SoVITS的本地部署,以及StableDiffusionWebUI的尝试。同时介绍了图像生成模型的Fine-tune和用户界面设计,特别是登录界面的Python库转换过程。
摘要由CSDN通过智能技术生成

目录

大语言模型部分

语音克隆模型部分

具体实施:

开启部署网页

准备训练集语音

打标

校对

训练

推理

图像生成模型部分

具体实施:

WebUI的下载与安装

Fine-tune模型与LoRA的收集

图像生成的尝试

用户界面部分

具体实施:

制作登录界面UI


        这个专栏是团队进度的周报,会每两周更新一次团队在本项目上的进展,权当备份。

大语言模型部分

#阶段1 4月5日#

目标:完成大语言模型CharacterGLM-6B的本地部署,参数设置和使用,完成语音克隆模型的本地部署

实施:本地部署如下,参数info设置可调

大语言模型
语音克隆模型

#阶段2 4月11日#

目标:尝试实现LLM生成response对接GPT-SoVITs模型使用的api进行生成语音任务

实施:在脚本内编辑代码,通过给予api文本并接受返回的音频流写入本地

语音克隆模型部分

目标:通过AutoDL走一遍GPT-SoVITS的部署流程

具体实施:

开启部署网页

在JupyterLab的终端中输入echo {}> ~/GPT-SoVITS/i18n/locale/en_US.json && source activate GPTSoVits && cd ~/GPT-SoVITS/ && python webui.py,点击输出的链接即可跳转

准备训练集语音

在对应游戏的wiki中通过开发者模式获取语音。由于本次部署仅为初步测试,仅选择了几条情绪较弱,语气较少,音调连贯的语音作为训练集。

下载后,上传到云端。

打标

游戏语音仅有人声且已经切分处理,不用自己处理音频,因此直接跳到处理音频文本。

部署网页对接了几种语言的自动识别语音工具,导入语音文件夹后选择开启ASR即可。

校对

输入打标后获得的字幕文本的路径,点击终端输出的网页,进入校对页面。

虽然自动识别的准确率看着蛮高的,稳妥起见还是对着音频输入相应的原生文本。

全部输入后点击Submit Text和Save File,即可保存校对结果。

训练

输入语音和字幕的路径,其他参数保持默认,sovits训练完后训练GPT

推理

选好模型后点击开始TTS推理,完成后点击终端输出的链接,进入网页。

上传输入音频和输入文本。经过几次测试后感觉这一步挺重要的,很大程度上决定了输出音频的语气,最好输入音频和输入文本的应用场景一致。

因为本项目的应用场景不需要很长的文本,这里怎么切分音频就不用太考虑了。

最后导出音频。

本项目主要需要此步骤的sovits模型和gpt模型,最后的音频用于评估模型的好坏。

总结:模型部署还是比较简单,途中没有出现bug。

图像生成模型部分

目标:尝试本地部署Stable Diffusion Web UI,并探索符合项目需求的图像风格。

具体实施:

WebUI的下载与安装

去年在SD1.5大火的时候就尝试过WebUI,因此此次的配置并不难,从Github仓库拉取更新了一下本地代码,并且根据引导重新配好了环境,区别似乎在于PyTorch的版本更高了,但页面和功能还是熟悉的样子。

Fine-tune模型与LoRA的收集

本次的MomoTalk项目是源于BA,因此需要能够生成其中的人物,这自然是借助LoRA实现,兴致勃勃地在Civitai上下载了一个看起来不错的爱丽丝LoRA和Q版人物LoRA,结果用标准SD1.5生成后得到了一张一言难尽的图片:

人物特征基本满足完全没法因此只能寻求下载一个Fine-TuneSD最后,简单筛选选择了对动漫人物更有理解meinamix,从而拿到了一个比较不错的效果。

虽然光环明显的错乱,手也不甚科学,但至少人物不再是抽象

图像生成的尝试

下一步就是尝试能否爱丽丝表现出各种各样动作和表情,从而穿插对话当中。在最后的对接当中,文本模型将会给出一个“表情描述字段这个字段就是Prompt里唯一需要替换东西

经过尝试爱丽丝动作维持几个相对固定状态表情变化更是难以控制毕竟图像只是辅助整个语音系统介质之一因此也就过多苛求

用户界面部分

目标:制作登录界面

具体实施:

制作登录界面UI

先使用了python tkinter进行尝试

制作效果不美观且代码冗长

最后决定使用PyQt5进行用户界面设计,PyQt5提供了丰富的功能和组件,可以轻松实现各种复杂的界面设计和交互功能。无论是文本输入框、按钮、菜单还是图形绘制,PyQt5都提供了强大的支持,使得可以创建出吸引人且功能完善的沉浸式对话软件。

下图是登录界面的雏形

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值