Datawhale X 魔搭 AI夏令营 第四期--AIGC文生图 task1笔记

1.赛事要求

  1)参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格;

  2)  基于Lora模型生成八张故事连贯性和美感度的图片。

本赛事适合入门并实践 AIGC文生图、工作流搭建、LoRA微调 的学习者参与。

2.实操环节

  操作相对比较简单,step by step可以很快跑通Baseline并生成8张图片:

 1)开通Pai-DSw试用,并跳转魔搭社区进行账号互通授权;

 2)在魔搭社区创建pai实例,并启动其平台免费的jupyter notebook;

 3)  Baseline跑通过程,包括环境包下载,数据集下载,Data-Juicer 和 DiffSynth-Studio使用,最后利用prompt提示词正反向进行文生图片输出。

4)output结果上传魔搭创空间完成模型的发布。

3. 理论理解

  环境创建及跑脚本是很简单的操作,无理解难度,主要是baseline跑通过程中的脚本理解最为关键,熟悉并理解后可以触类旁通对于后续的finetune和agent开发会有很大利处。

  1)下载本次要使用的魔搭社区训练集数据Msdataset(对标国外的大平台huggingface),路径为AI-ModelScope/lowres_anime ,保存数据集中的图片及元数据;

  2)数据处理包data-juicer,主要是format标准化数据喂给下一步模型训练使用并生成图片。

 3)下载模型并进行训练:因为是深度学习的领域,Kolors模型是基于diffusion模型改进而来,我们可以直接使用,训练模型需要有对常用的超参进行理解,比如学习率,epochs,梯度batch,,batch size等等,我们都使用默认参数值,实际上可以根据模型训练效果进行参数的调整输入。

4)模型加载使用,因为是Lora框架微调,有外挂参数和低秩矩阵等概念,之前做ft微调的时候有所了解,时间关系我们不细延伸讲,具体大家可网上查询内容,包括常用的集中微调框架及适用场景,自注意力机制.QKV等等。

5)使用prompt提示词进行8张图片生成,需要注意因为我们是要通过提示词文字输入生成故事多张图片,需要有连贯性加持,同时正反向提示词对于控制图片输出质量非常重要。

4.未来规划及展望

   第一波简单的微操加深了对文生图的印象和基本流程的了解,但距离对整个模型生成的理解还非常遥远。不仅仅是机器学习里面的内容,还有深度学习,强化学习需要学习。具体包括参数微调,提示词工程,单agent和multi agent开发等。所以这是个双向奔赴的过程:基础理论需要加强学习理解+AI应用落地比如agent开发等可先行实操。这样才能理论实际结合加强理解提升学习ai的信心。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值