Datawhale AI夏令营第四期 AIGC方向 Task02笔记-CSDN博客

本文链接：https://blog.csdn.net/foxfur/article/details/141201537

【目标】

1、对baseline的代码有一个更加细致的理解；

2、学习如何借助AI来提升我们的自学习能力，学会如何制作一个话剧连环画。

自其不变者而观之，则物与我皆无尽也

这句话出自苏轼的《赤壁赋》。

“自其不变者而观之，则物与我皆无尽也”表达了一种深刻的哲学思考。从不变的角度来看，万物和我们自身都是没有尽头的。苏轼在这里探讨了时间与存在的相对性。世间万物处于不断的变化之中，但如果从一个更为宏观和永恒的视角去审视，那些看似变化的事物背后或许有着不变的本质。我们常常为生命的短暂、事物的无常而感慨，但当我们以一种超越常规认知的方式去思考，就会发现，在某种意义上，我们和周围的事物都可以超越时间的限制，具有一种永恒的价值。

这句话也体现了苏轼豁达超脱的人生态度。在面对人生的起伏和不确定性时，他能够以一种开阔的视野和深邃的思考来化解内心的困惑与不安，从而达到一种心灵的宁静与自在。

AI生图技术的能力&局限

为什么要了解AI生图前沿？

AIGC(AI-Generated Content)将是未来人工智能的重点方向，也将改造相关行业和领域生产内容的方式。

警惕Deepfake技术

Deepfake 是一种利用深度学习技术进行人像合成的技术，它可以将已有的图像和影片叠加至目标图像或影片上，用于制作极其逼真的篡改图像或视频。

对所有人来说，定期关注AI生图的最新能力情况都十分重要：

对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图
对于创作者来说，通过AI生图的工具可以提效，快速制作自己所需要的内容
对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具

AI生图的历史

AI生图的难点和挑战有哪些？

观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴
检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，是否存在不自然的光线或阴影
分析像素。放大图片，寻找是否有模糊或像素化的部分。
注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。

而这些细节上的AI特性，也许就是我们在某些特定场景下需要解决的挑战。

开始探索AI生图前沿

Kolors（可图）模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

代码开源链接：https://github.com/Kwai-Kolors/Kolors

模型开源链接：https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明：https://www.modelscope.cn/learn/575?pid=543

过去文生图主要以 SD 系列基础模型为主，仅支持英文的prompt，但可图是支持中文的文生图模型，文生图的prompt格式较为固定，魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转)，可以针对600+种不同风格，完善prompt，生成各种风格图片，可以在我们的学习当中使用

通过魔搭社区持续探索AI生图前沿

Baseline精读

【Prompt】你是一个优秀的python开发工程师，现在我们需要你帮我们分析这个代码的主体框架，你需要把代码按照工作流分成几部分，用中文回答我的问题。{此处替换前面的代码}

【返回结果】

这段代码可以分为几个主要的工作流程部分：

环境设置与依赖安装

首先，代码通过一系列的!pip install和!pip uninstall命令来安装和卸载必要的Python包，确保运行环境中有正确的依赖库。

数据集加载与预处理

这部分从ModelScope加载了一个名为lowres_anime的数据集，并将数据集中的图像转换为RGB格式，保存到指定目录下，并创建一个JSONL文件，其中包含了图像路径和对应的文本标签“二次元”。

数据清洗与过滤

使用Data Juicer库配置并执行数据处理，包括图像尺寸过滤和宽高比过滤，以确保图像符合特定的质量标准。处理后的结果被保存为新的JSONL文件。

数据转换与特征提取

接下来，将处理过的数据转换为Pandas DataFrame，并使用CLIP模型对图像和文本进行编码，得到图像与文本之间的相似度分数。

自定义数据集与数据加载

定义了一个自定义的PyTorch数据集类CustomDataset，用于处理DataFrame中的数据，并创建一个DataLoader用于批量加载数据，再次利用CLIP模型计算图像与文本的相似度。

图像生成

最后，使用StableDiffusionPipeline根据不同的提示（prompt）生成二次元风格的图像，并保存这些图像。生成过程包括了设置不同的种子以获得多样化的输出，以及一些负面提示（negative prompt）以避免不期望的图像特性。

图像拼接

将生成的图像按顺序拼接成一个大图，并调整大小以适应特定的尺寸。

整体来看，这段代码实现了从数据集加载、预处理、特征提取、自定义数据集构建、到最终利用深度学习模型生成图像的完整工作流。

【执行过程】

实战演练一一基于话剧的连环画制作

图片编号	场景描述	正向提示词	反向提示词
图片1	女主正在上课	古风，卡通画，一个红色长发少女，坐在教室里，盯着黑板，深思，上半身，红色长裙	丑陋，变形，嘈杂，模糊，低对比度
图片2	开始睡着了	古风，卡通画，一个红色长发少女，坐在教室里，趴在桌子上睡着了，上半身，红色长裙	丑陋，变形，嘈杂，模糊，低对比度
图片3	进入梦乡，梦到自己站在路旁	古风，卡通画，一个红色长发少女，站在路边，上半身，红色长裙	丑陋，变形，嘈杂，模糊，低对比度
图片4	王子骑马而来	古风，卡通画，一个英俊少年，骑着白马，上半身，白色衬衫	丑陋，变形，嘈杂，模糊，低对比度
图片5	两人相谈甚欢	古风，卡通画，一个英俊少年，白色衬衫，一个红色长发少女，黑色长裙，两个人一起聊天，开心，上半身	丑陋，变形，嘈杂，模糊，低对比度
图片6	一起坐在马背上	古风，卡通画，一个英俊少年，白色衬衫，一个红色长发少女，黑色长裙，两个人一起骑着马，全身	丑陋，变形，嘈杂，模糊，低对比度
图片7	下课了，梦醒了	古风，卡通画，一个红色长发少女，坐在教室里，下课铃声响了，同学们开始走动，从睡梦中醒来，深思，上半身，黑色长裙	丑陋，变形，嘈杂，模糊，低对比度
图片8	又回到了学习生活中	古风，卡通画，一个红色长发少女，坐在教室里，盯着黑板，认真上课，上半身，黑色长裙	丑陋，变形，嘈杂，模糊，低对比度