在项目内容正式实施前,这次的任务是本地部署Stable Diffusion Web UI,探索一下符合项目需求的图像风格。
WebUI的下载与安装
去年在SD1.5大火的时候就尝试过WebUI,因此此次的配置并不难,从Github仓库拉取更新了一下本地代码,并且根据引导重新配好了环境,区别似乎在于PyTorch的版本更高了,但页面和功能还是熟悉的样子。
Fine-tune模型与LoRA的收集
本次的MomoTalk项目是源于BA,因此需要能够生成其中的人物,这自然是借助LoRA实现,兴致勃勃地在Civitai上下载了一个看起来不错的爱丽丝LoRA和Q版人物LoRA,结果用标准SD1.5生成后得到了一张一言难尽的图片:
人物特征基本满足,但完全没法看,因此只能寻求下载一个Fine-Tune的SD,最后,在简单的筛选后选择了对动漫人物更有理解的meinamix,从而拿到了一个比较不错的效果。
虽然光环有明显的错乱,手也不甚科学,但至少人物上不再是抽象了。
图像生成的尝试
下一步就是尝试能否让爱丽丝表现出各种各样的动作和表情,从而穿插到对话当中。在最后的对接当中,文本模型将会给出一个“表情描述“字段,而这个字段就是Prompt里唯一需要替换的东西。
经过尝试,爱丽丝的动作维持在几个相对固定的状态,而表情上的变化则更是难以控制,但毕竟图像只是辅助整个语音系统的介质之一,因此也就不过多苛求了。