Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记

最新推荐文章于 2024-08-09 20:49:27 发布

m0_66384894

最新推荐文章于 2024-08-09 20:49:27 发布

阅读量645

点赞数 11

文章标签：人工智能 AIGC 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_66384894/article/details/141062255

版权

纯小白第一次参加Datawhale AI夏令营，记录一下Task1的学习过程

学习内容提要：从文生图实现方案逐渐进阶，教程偏重图像工作流、微调、图像优化等思路，AIGC应用方向、数字人技术（选学）

首先了解赛题

赛题解读

可图Kolors-LoRA风格故事挑战赛

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性样例：偶像少女养成日记

Task1

1.学习文生图相关原理

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

2.熟悉魔塔相关文生图工具的使用

步骤一：开通阿里云PAI-DSW试用

开通免费试用
在魔搭社区进行授权

步骤二：报名赛事

步骤三：在魔塔社区创建API实例

步骤四：跑通Baseline

1.下载baseline文件

2.进入文件夹，打开baseline文件

3.安装环境，然后重启kernel

4.调整prompt，设置你想要的图片风格，依次修改8张图片的描述

5.依次顺序运行剩余的代码块，点击代码框左上角执行按钮，最终获得图片

3.完成可图赛事体验

学完的感受和收获、困惑

学完后大致了解了AI生图的流程及原理，知道了跑通baseline的流程，但是对其中的代码不是很理解，只是根据教程点击运行，并不明白改代码为何这么写。

Task1较为简单，只需根据教程跑通baseline，并且他不需要在本地安装环境，非常适合小白（比如我）上手。

跑完baseline，看了下代码，收获还是很大的，虽然有些地方还搞不明白是为什么。

不过这份代码运行时间有点长，应该还有提高效率的空间。

接下来的学习方向

1.深入了解AI生图的原理

2.争取弄懂算法原理，并改进算法，使之更高效

关注

11
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记

基于8图故事，评估LoRA风格的美感度及连贯性样例：偶像少女养成日记。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。