Datawhale X 魔塔 AI夏令营第四期-AIGC文生图方向 Task2笔记-CSDN博客

本文链接：https://blog.csdn.net/m0_65224702/article/details/141161941

一、AI生图技术的能力&局限

能力

对所有人来说，定期关注AI生图的最新能力情况都十分重要：

对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图。
对于创作者来说，通过AI生图的工具可以提效，快速制作自己所需要的内容。
对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具。

一般来说，AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

局限

通俗来说，AI生图模型获得图片生成能力主要是通过学习 图片描述 以及 图片特征，尝试将这两者进行一一对应，存储在自己的记忆里。

在我们需要的时候，通过输入的文字，复现出来对应的图片特征，从而生成了我们需要的图片。

关于AI是否真正理解了图片背后所代表的世界的特征，是否理解了图片的含义，这个一直是科研界和产业界存在争议的话题，我们唯一可以确定的是——

由于每个模型用于训练的数据是有限的且不一定相同的，它们能匹配的描述和特征也是有限的，所以在风格、具体事物上，不同的模型会有很大的生成差异，且可能存在诸多与现实不符的情况。

而这些问题，就是业界和科研界持续在想办法解决的问题。

目前大部分大模型已经在画面违和感和画面逻辑上有了很大改善，然而我们能通过观察细节来辨别。

观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴
检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，是否存在不自然的光线或阴影
分析像素。放大图片，寻找是否有模糊或像素化的部分。
注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。

前沿

Kolors（可图）模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

代码开源链接：https://github.com/Kwai-Kolors/Kolors

模型开源链接：https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明：https://www.modelscope.cn/learn/575?pid=543

过去文生图主要以 SD 系列基础模型为主，仅支持英文的prompt，但可图是支持中文的文生图模型，文生图的prompt格式较为固定，魔搭社区还开源了专门的各种风格的可图优质咒语书，可以针对600+种不同风格，完善prompt，生成各种风格图片

二、通义千问生成提示词

通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。我们可以看到，编程与技术支持能力是它的强项之一。

提示词

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧
话剧由8张场景图片生成，你需要输出每张图片的生图提示词

具体的场景图片
1、女主拿着一张演唱会海报
2、查看日历
3、许愿能抢到门票
4、抢到了门票
5、来到车站准备去演唱会
6、排队进演唱会
7、坐在演唱会观众席
8、看演出

生图提示词要求
1、风格为古风
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情

例子：
古风，水墨画，一个黑色长发少女，坐在卧室，盯着海报，深思，上半身，紫色长裙

图片编号	场景描述	正向提示词	反向提示词
图片1	女主拿着演唱会海报	古风，淡墨勾勒，一个黑发少女，身着浅蓝色汉服，在庭院中站立，手持精致的海报，庭院内种有梅花，花瓣随风飘落，正在凝视海报，眼神充满期待	丑陋，变形，嘈杂，模糊，低对比度
图片2	查看日历	古风，水彩渲染，少女端坐于书桌前，穿着白色衣裳，书桌上摆放着一本古旧的日历，室内挂有竹帘，窗外可见竹林，正仔细翻阅日历，寻找日期	丑陋，变形，嘈杂，模糊，低对比度
图片3	许愿能抢到门票	古风，工笔细腻，少女跪坐在榻榻米上，身穿粉色衣裙，面前摆放香炉与祈福牌，室内装饰有屏风和书画，双手合十，闭眼默念心愿	丑陋，变形，嘈杂，模糊，低对比度
图片4	抢到了门票	古风，水墨泼洒，少女站在书桌旁，手持门票，桌上散落着各种文房四宝，背景为木质结构的房间，脸上洋溢着喜悦，轻抚门票	丑陋，变形，嘈杂，模糊，低对比度
图片5	来到车站准备去演唱会	古风，线描勾勒，少女穿着深绿色长袍，手持纸伞，背着小包裹，背景为古典建筑风格的车站，正准备踏上前往演唱会的旅程	丑陋，变形，嘈杂，模糊，低对比度
图片6	排队进演唱会	古风，淡墨描绘，少女身着淡紫色长裙，与其他同样古装打扮的人群一起排队，背景是仿古的城门入口，手持门票，耐心等待入场	丑陋，变形，嘈杂，模糊，低对比度
图片7	坐在演唱会观众席	古风，淡雅设色，少女穿着淡紫色长裙，坐在木质长椅上，周围是人声鼎沸的观众席，正望向舞台方向，神情专注	丑陋，变形，嘈杂，模糊，低对比度
图片8	看演出	古风，浓墨重彩，少女穿着淡紫色长裙，站立于人群之中，舞台上正在进行精彩表演，目光紧锁舞台，沉浸于表演之中	丑陋，变形，嘈杂，模糊，低对比度

三、baseline主体架构

1.安装和卸载依赖包

使用 !pip 命令来安装或卸载 Python 包。包括：
- simple-aesthetics-predictor, data-juicer, peft, lightning, pandas, torchvision, 和 DiffSynth-Studio 的安装。
- 卸载 pytorch-lightning（使用 -y 自动确认卸载）。

2.加载数据集

使用 ModelScope 的 MsDataset 类加载名为 AI-ModelScope/lowres_anime 的数据集，并指定子集名称为 default 和分割为 train，缓存目录设置为 /mnt/workspace/kolors/data。

3.数据预处理

将数据集中的图像转换为 RGB 模式，并保存到指定目录。
创建包含图像路径和文本描述的元数据文件 metadata.jsonl。
编写并保存 data_juicer_config.yaml 配置文件，用于后续的数据过滤和处理。

4.使用 Data-Juicer 进行数据处理

使用 dj-process 命令根据配置文件对数据进行过滤和处理，生成 result.jsonl 文件。

5.数据整理与训练

读取 result.jsonl 文件中的数据，并将其转换为 Pandas DataFrame，然后保存为 CSV 文件，并且将图片保存到./data/lora_dataset_processed/train文件夹下。
下载模型download_models(["Kolors", "SDXL-vae-fp16-fix"])
在前面模型的基础上，执行Lora微调训练
加载微调后的模型