Datawhale AI夏令营第四期 AIGC TASK01

首先先看最终出图:

赛事解读:可图Kolors-LoRA风格故事挑战赛

  1. 参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......

  2. 基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度连贯性 样例:偶像少女养成日记

学习笔记 :

        1.生成演化模型的发展:

        2.文生图基础知识介绍:

        文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

         提示词:很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家

         LoRA:Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。

        ComfyUI:一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。

        ControlNet:一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)

实践:

        1.开通阿里云PAI-DSW获取试用资格:

        链接:阿里云免费试用 - 阿里云

        注册登陆后选择点击试用→立即试用→显示提交成功即可,可获得5000算力时,有效期为三个月

        2.前往魔搭社区授权:

        链接:https://www.modelscope.cn/my/mynotebook/authorization

        3.创建实例:

        稍等片刻后,可以看到如下界面:

        4.启动实例

        点击上图的“打开”,进入Jupyter Notebbok,进入终端

        首先下载baseline文件:

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

        打开下载好的baseline文件:

       

        安装 Data-Juicer 和 DiffSynth-Studio,即运行第一个代码块:

        Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程

        DiffSynth-Studio:高效微调训练大模型工具

        调整prompt:设置你想要的图片风格,依次修改8张图片的描述

        正向描述词:你想要生成的图片应该包含的内容

        反向提示词:你不希望生成的图片的内容    

        依次顺序运行剩余的代码块,点击代码框左上角执行按钮,最终获得图片(大约需要20分钟

        最后关闭PAI实例即可!

课外知识:

        1.我发现有些Promt并没有效果,于是搜索了一下相关知识,链接如下:

        AI绘画Stable Diffusion提示词(Prompt)原理详解,扫盲级教程还请收藏!-CSDN博客

        根据博客可以看出,可以调整提示词的权重,并且采用英文的提示词效果会更好一点,如{in the middle of the night without the moon:1.2},将没有月亮的午夜权重调至1.2(默认为1),修改后的提示词与出图如下:

prompt="black and white ink style,{in the middle of the night without the moon:1.2}, two samurai wearing hats are far away,{the weak samurai kneels on the ground and has a sword inserted into the dirt next to him:1.2}, The mighty samurai pointed his sword at the weak samurai,  side,vista,masterpiece",
negative_prompt="丑陋、变形、嘈杂、模糊、扭曲的手指、多余的手指、Extra swords",

        可以看到像没有月亮,多余的剑等提示词的效果生效地很好。         

        2.在学习过程中对gan对抗网络很有兴趣,于是稍微了解了一下:

        可以将GAN视为伪造者和警察之间的猫捉老鼠游戏。伪造者正在学习制造假钱,警察正在学习如何检测假钱。他们都在学习和提高。伪造者不断学习创造更好的假货,并且警察在检测它们时不断变得更好。最终的结果是,伪造者现在经过不断演变,可以创造出极为真实的金钱!颇有达尔文自然进化的感觉。

        以MNIST手写数字数据集为例:

        

        我们将让Generator创建新的图像,用于模仿MNIST数据集中的图像。当从真实的MNIST数据集中显示实例时,Discriminator的目标是将它们识别为Real。 同时Generator的目标是生成可以骗过Discriminator的的手写数字,所以整个步骤如下:

  1. 生成器接收随机数并返回图像。
  2. 将生成的图像与从实际数据集中获取的图像流一起馈送到鉴别器中。
  3. 鉴别器接收真实和假图像并返回概率,表现为0到1之间的数字,1表示完全真实性的预测,0表示Fake。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值