#阶段1 4月5日#
完成大语言模型characterGLM-6B的本地部署,参数设置和使用
完成语音克隆模型的本地部署
#阶段2 4月11日#
尝试并初步完成了LLM生成response对接GPT-SoVITs模型使用的api进行生成语音任务
#阶段3 4月20日#
参考更大参数模型charglm-66B的用户手册,尝试学习了解LLM模型的api调用编写
将具体的上下游任务工作流结合的代码封装成多个过程方法体以方便后续UI界面获得prompet和绘画模型api获取lora标签进行调用
语音模型存在一定吞字问题,据考究应该是模型本身的影响。
#阶段4 5月8日#
添加了更改扮演角色的方法,可以供app界面调用,传回内容为meta键值对。
购买模型使用权,通过api进行大模型的远程调用,由于该大语言模型需要对话历史来稳定模型对话一致性,除开初次定义welcome-content外,每次都往prompt加入新的生成内容,并返回为可保存的字典list的history进行储存,每次新传入用户内容和history对话记录并调用方法即可。
大模型返回内容content存在转义符的问题,继续通过GetTxt方法完善来剔除转义符并获得纯净的对话内容显示。
#阶段4 5月25日#
为更改扮演角色额外添加了实时切换语音模型的功能,采用post上传至api完成任务
更新了大语言模型的接口调用,由于文档更新,charglm已经支持最新的接口调用方式,旧的仍然可以用,但是考虑到正则剔除文本括号和剔除转义符等操作简化,正式更新为新api接口调用方法和响应示例,同时更改键值对加入history list的方式
尝试与stable-diffusion进行任务对接,同时完成了不同设备的文生图远程调用生成任务
重新封装生成语音的方法体,考虑到频繁切换的性能消耗,将角色语音模型切换写到了choose_character方法中供app调用,位于LLMGenerate.py中,具体的任务实现单独写在VolumeGenerate.py中
#阶段5 6月10日#
完成和应用主体的对接尝试,可以基本完成输入对话框发送内容并获得回复的任务