Datawhale AI夏令营第四期魔搭- AIGC文生图 task02学习笔记

本文链接：https://blog.csdn.net/2301_81156246/article/details/141186848

一、了解AI生图前沿

AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式，很早就有专家指出，AIGC将是未来人工智能的重点方向，也将改造相关行业和领域生产内容的方式。

AI生图则是其中最早被大众所熟知并广泛被认可的AIGC领域，首先我们来看一个新闻(原文入口)——AI生成图片的快速发展，使诸多领域措手不及，如：摄影、美术等艺术领域正在面临前所未有的颠覆。我们所认为的“有图有真相”，甚至理解的现实也将不断被挑战...

插入一段小常识，提醒大家警惕Deepfake技术

Deepfake是一种使用人工智能技术生成的伪造媒体，特别是视频和音频，它们看起来或听起来非常真实，但实际上是由计算机生成的。这种技术通常涉及到深度学习算法，特别是生成对抗网络（GANs），它们能够学习真实数据的特征，并生成新的、逼真的数据。

Deepfake技术虽然在多个领域展现出其创新潜力，但其滥用也带来了一系列严重的危害。在政治领域，Deepfake可能被用来制造假新闻或操纵舆论，影响选举结果和政治稳定。经济上，它可能破坏企业形象，引发市场恐慌，甚至操纵股市。法律体系也面临挑战，因为伪造的证据可能误导司法判断。此外，深度伪造技术还可能加剧身份盗窃的风险，成为恐怖分子的新工具，煽动暴力和社会动荡，威胁国家安全。

由此衍生的Deepfake攻防技术，我们在今年夏令营的第二期中，有组织学习活动，具体可以查看：从零入门CV图像竞赛(Deepfake攻防)

对所有人来说，定期关注AI生图的最新能力情况都十分重要：

对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图
对于创作者来说，通过AI生图的工具可以提效，快速制作自己所需要的内容
对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具

二、从工具视角回顾一下AI生图的历史

最早的AI生图可追溯到20世纪70年代，当时由艺术家哈罗德·科恩（Harold Cohen）发明AARON，可通过机械臂输出作画。

现代的AI生图模型大多基于深度神经网络基础上训练，最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。

它使用卷积神经网络（CNN）训练，证明了深度学习模型能够学习到图像的复杂特征。

2015年，谷歌推出了“深梦”（Deep Dream）图像生成工具，类似一个高级滤镜，可以基于给定的图片生成梦幻版图片。

2021 年 1 月 OpenAI 推出DALL-E模型（一个深度学习算法模型，是GPT-3 语言处理模型的一个衍生版本），能直接从文本提示“按需创造”风格多样的图形设计。

一般来说，AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

通过学习大量画家的作品，AI生图模型 往往可以照猫画虎绘制出类似的画作，在2022年8月，AI生图真正走进了大众的视野，让各个领域无法忽视。

当时让AI生图破圈的是AI绘画作品《太空歌剧院》，该作品在美国科罗拉多州举办的新兴数字艺术家竞赛中获得了比赛“数字艺术/数字修饰照片”类别一等奖，引起了当时“艺术家们 Not Happy”的社会舆论。

三、AI生图的难点和挑战有哪些？

往前一年，AI绘画还不会画“手”，也因为当时这个情况，产生了很多解决这个问题的相关技术，如：给图片里的人手打上标记，像把手掌、拇指、食指啥的，都给清楚地标出来；我们现在还可以经常在各类自媒体的文章中看到“AI翻车”的案例，那些往往也是需要解决的难点，某些“翻车”现象，也许在业界已有相关的解决方案。

通俗来说，AI生图模型获得图片生成能力主要是通过学习 图片描述 以及 图片特征，尝试将这两者进行一一对应，存储在自己的记忆里。

在我们需要的时候，通过输入的文字，复现出来对应的图片特征，从而生成了我们需要的图片。

关于AI是否真正理解了图片背后所代表的世界的特征，是否理解了图片的含义，这个一直是科研界和产业界存在争议的话题，我们唯一可以确定的是——

由于每个模型用于训练的数据是有限的且不一定相同的，它们能匹配的描述和特征也是有限的，所以在风格、具体事物上，不同的模型会有很大的生成差异，且可能存在诸多与现实不符的情况。

而这些问题，就是业界和科研界持续在想办法解决的问题。

在大部分生图场景下，我们可能经常会觉得图片存在“AI味”，这很长一段时间也是科研界和相关从业人员非常头大的问题。

目前大部分的模型，已经具备了去除 “AI味” 的能力，且可能存在容易误导他人的情况，这时候我们想辨别可能需要非常仔细地——

观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴
检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，是否存在不自然的光线或阴影
分析像素。放大图片，寻找是否有模糊或像素化的部分。
注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。

而这些细节上的AI特性，也许就是我们在某些特定场景下需要解决的挑战。

四、开始探索AI生图前沿

我们要探索AI生图的前沿，就必须有一个持续更新，且我们持续愿意跟进和投入时间的“主线”引导，例如，可以从这次学习活动、可图Kolors-LoRA风格故事挑战赛、魔搭社区的各类AIGC工具 开始，持续探索、尝试、思考总结、实践，甚至开始持续创作自己的作品/工具。

Kolors（可图）模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

代码开源链接：https://github.com/Kwai-Kolors/Kolors

模型开源链接：https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明：https://www.modelscope.cn/learn/575?pid=543

过去文生图主要以 SD 系列基础模型为主，仅支持英文的prompt，但可图是支持中文的文生图模型，文生图的prompt格式较为固定，魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转)，可以针对600+种不同风格，完善prompt，生成各种风格图片，可以在我们的学习当中使用

五、通过魔搭社区持续探索AI生图前沿

在某些设计的场景中，我们还希望AI能为我们将特定的文字生成在图片当中，比如下面这种海报——

但实际上，这种固定文字生成，往往难度较大，一是具体生成在哪些位置，往往需要人为设定，为了更方便地制作类似这样的海报还产生了PS等图片编辑工具，才能实现相应的效果，想要让AI稳定生成相似效果的图片可想而知难度之大。

像我们Task1中介绍的 创意海报生成 工具，早已在代码中固定了相应的文字位置和对应的字体，才能进行相应的生成，且大概率是进行了两个步骤——

一个步骤是AI生成背景，
另一个步骤是通过代码将对应的文字显示到对应位置，
然后渲染，合成图片，给到我们。

事实上，我们可以通过魔搭社区上感兴趣的工具，尝试思考——

可以用在哪些业务里？有哪些行业在使用？
用的是哪个 AI 模型？
是自己部署的AI模型，还是用的API？
使用到了哪些 AI 能力？
如果要复现，需要做哪些额外的设置和开发？
还可以有哪些优化点？

六、实战演练一一基于话剧的连环画制作

提示词

“你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧话剧由8张场景图片生成，你需要输出每张图片的生图提示词具体的场景图片 1、女主正在上课 2、开始睡着了 3、进入梦乡，梦到自己站在路旁 4、王子骑马而来 5、两人相谈甚欢 6、一起坐在马背上 7、下课了，梦醒了 8、又回到了学习生活中生图提示词要求 1、风格为古风 2、根据场景确定是使用全身还是上半身 3、人物描述 4、场景描述 5、做啥事情例子：古风，水墨画，一个黑色长发少女，坐在教室里，盯着黑板，深思，上半身，红色长裙”