1.赛事要求
1)参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格;
2) 基于Lora模型生成八张故事连贯性和美感度的图片。
本赛事适合入门并实践 AIGC文生图、工作流搭建、LoRA微调 的学习者参与。
2.实操环节
操作相对比较简单,step by step可以很快跑通Baseline并生成8张图片:
1)开通Pai-DSw试用,并跳转魔搭社区进行账号互通授权;
2)在魔搭社区创建pai实例,并启动其平台免费的jupyter notebook;
3) Baseline跑通过程,包括环境包下载,数据集下载,Data-Juicer 和 DiffSynth-Studio使用,最后利用prompt提示词正反向进行文生图片输出。
4)output结果上传魔搭创空间完成模型的发布。
3. 理论理解
环境创建及跑脚本是很简单的操作,无理解难度,主要是baseline跑通过程中的脚本理解最为关键,熟悉并理解后可以触类旁通对于后续的finetune和agent开发会有很大利处。
1)下载本次要使用的魔搭社区训练集数据Msdataset(对标国外的大平台huggingface),路径为AI-ModelScope/lowres_anime ,保存数据集中的图片及元数据;
2)数据处理包data-juicer,主要是format标准化数据喂给下一步模型训练使用并生成图片。
3)下载模型并进行训练:因为是深度学习的领域,Kolors模型是基于diffusion模型改进而来,我们可以直接使用,训练模型需要有对常用的超参进行理解,比如学习率,epochs,梯度batch,,batch size等等,我们都使用默认参数值,实际上可以根据模型训练效果进行参数的调整输入。
4)模型加载使用,因为是Lora框架微调,有外挂参数和低秩矩阵等概念,之前做ft微调的时候有所了解,时间关系我们不细延伸讲,具体大家可网上查询内容,包括常用的集中微调框架及适用场景,自注意力机制.QKV等等。
5)使用prompt提示词进行8张图片生成,需要注意因为我们是要通过提示词文字输入生成故事多张图片,需要有连贯性加持,同时正反向提示词对于控制图片输出质量非常重要。
4.未来规划及展望
第一波简单的微操加深了对文生图的印象和基本流程的了解,但距离对整个模型生成的理解还非常遥远。不仅仅是机器学习里面的内容,还有深度学习,强化学习需要学习。具体包括参数微调,提示词工程,单agent和multi agent开发等。所以这是个双向奔赴的过程:基础理论需要加强学习理解+AI应用落地比如agent开发等可先行实操。这样才能理论实际结合加强理解提升学习ai的信心。