【目标】
1、对baseline的代码有一个更加细致的理解;
2、学习如何借助AI来提升我们的自学习能力,学会如何制作一个话剧连环画。
自其不变者而观之,则物与我皆无尽也
这句话出自苏轼的《赤壁赋》。
“自其不变者而观之,则物与我皆无尽也”表达了一种深刻的哲学思考。从不变的角度来看,万物和我们自身都是没有尽头的。苏轼在这里探讨了时间与存在的相对性。世间万物处于不断的变化之中,但如果从一个更为宏观和永恒的视角去审视,那些看似变化的事物背后或许有着不变的本质。我们常常为生命的短暂、事物的无常而感慨,但当我们以一种超越常规认知的方式去思考,就会发现,在某种意义上,我们和周围的事物都可以超越时间的限制,具有一种永恒的价值。
这句话也体现了苏轼豁达超脱的人生态度。在面对人生的起伏和不确定性时,他能够以一种开阔的视野和深邃的思考来化解内心的困惑与不安,从而达到一种心灵的宁静与自在。
AI生图技术 的能力&局限
-
为什么要了解AI生图前沿?
AIGC(AI-Generated Content)将是未来人工智能的重点方向,也将改造相关行业和领域生产内容的方式。
警惕Deepfake技术
Deepfake 是一种利用深度学习技术进行人像合成的技术,它可以将已有的图像和影片叠加至目标图像或影片上,用于制作极其逼真的篡改图像或视频。
对所有人来说,定期关注AI生图的最新能力情况都十分重要:
-
对于普通人来说,可以避免被常见的AI生图场景欺骗,偶尔也可以通过相关工具绘图
-
对于创作者来说,通过AI生图的工具可以提效,快速制作自己所需要的内容
-
对于技术人来说,了解AI生图的能力的玩法,可以更好地针对自己的业务进行开发和使用,甚至攻克难题开发更实用的工具
-
AI生图的历史
-
AI生图的难点和挑战有哪些?
-
观察图片的细节。仔细检查人物的面部特征,尤其是眼睛和嘴巴
-
检查光线和阴影。分析图片中的光源是否一致,阴影的方向是否与光源相符,是否存在不自然的光线或阴影
-
分析像素。放大图片,寻找是否有模糊或像素化的部分。
-
注意背景。检查背景中是否有不协调的元素,比如物体边缘是否平滑,背景中是否有不自然的重复模式。
而这些细节上的AI特性,也许就是我们在某些特定场景下需要解决的挑战。
-
开始探索AI生图前沿
Kolors(可图)模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。
代码开源链接:https://github.com/Kwai-Kolors/Kolors
模型开源链接:https://modelscope.cn/models/Kwai-Kolors/Kolors
技术报告链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
魔搭研习社最佳实践说明:https://www.modelscope.cn/learn/575?pid=543
过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转),可以针对600+种不同风格,完善prompt,生成各种风格图片,可以在我们的学习当中使用
-
通过魔搭社区持续探索AI生图前沿
Baseline精读
【Prompt】你是一个优秀的python开发工程师,现在我们需要你帮我们分析这个代码的主体框架,你需要把代码按照工作流分成几部分,用中文回答我的问题。{此处替换前面的代码}
【返回结果】
这段代码可以分为几个主要的工作流程部分:
-
环境设置与依赖安装
首先,代码通过一系列的!pip install
和!pip uninstall
命令来安装和卸载必要的Python包,确保运行环境中有正确的依赖库。
-
数据集加载与预处理
这部分从ModelScope加载了一个名为lowres_anime
的数据集,并将数据集中的图像转换为RGB格式,保存到指定目录下,并创建一个JSONL文件,其中包含了图像路径和对应的文本标签“二次元”。
-
数据清洗与过滤
使用Data Juicer库配置并执行数据处理,包括图像尺寸过滤和宽高比过滤,以确保图像符合特定的质量标准。处理后的结果被保存为新的JSONL文件。
-
数据转换与特征提取
接下来,将处理过的数据转换为Pandas DataFrame,并使用CLIP模型对图像和文本进行编码,得到图像与文本之间的相似度分数。
-
自定义数据集与数据加载
定义了一个自定义的PyTorch数据集类CustomDataset
,用于处理DataFrame中的数据,并创建一个DataLoader用于批量加载数据,再次利用CLIP模型计算图像与文本的相似度。
-
图像生成
最后,使用StableDiffusionPipeline
根据不同的提示(prompt)生成二次元风格的图像,并保存这些图像。生成过程包括了设置不同的种子以获得多样化的输出,以及一些负面提示(negative prompt)以避免不期望的图像特性。
-
图像拼接
将生成的图像按顺序拼接成一个大图,并调整大小以适应特定的尺寸。
整体来看,这段代码实现了从数据集加载、预处理、特征提取、自定义数据集构建、到最终利用深度学习模型生成图像的完整工作流。
【执行过程】
实战演练一一基于话剧的连环画制作
图片编号 | 场景描述 | 正向提示词 | 反向提示词 |
图片1 | 女主正在上课 | 古风,卡通画,一个红色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片2 | 开始睡着了 | 古风,卡通画,一个红色长发少女,坐在教室里,趴在桌子上睡着了,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片3 | 进入梦乡,梦到自己站在路旁 | 古风,卡通画,一个红色长发少女,站在路边,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片4 | 王子骑马而来 | 古风,卡通画,一个英俊少年,骑着白马,上半身,白色衬衫 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片5 | 两人相谈甚欢 | 古风,卡通画,一个英俊少年,白色衬衫,一个红色长发少女,黑色长裙,两个人一起聊天,开心,上半身 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片6 | 一起坐在马背上 | 古风,卡通画,一个英俊少年,白色衬衫,一个红色长发少女,黑色长裙,两个人一起骑着马,全身 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片7 | 下课了,梦醒了 | 古风,卡通画,一个红色长发少女,坐在教室里,下课铃声响了,同学们开始走动,从睡梦中醒来,深思,上半身,黑色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片8 | 又回到了学习生活中 | 古风,卡通画,一个红色长发少女,坐在教室里,盯着黑板,认真上课,上半身,黑色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |