Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向-CSDN博客

本文链接：https://blog.csdn.net/2301_80970192/article/details/141175606

通过前面一个阶段的学习，我学习到了如何使用魔搭和PAI-DSW来创建实例，运行代码，生成自己所需要的图片。

而这一个阶段，我将对前面的baseline进行一个具体的分析了解，并且运用一个新的AI工具来帮助我定位图片的提示词，从而生成我想要的图片，这是一个非常棒的体验，接下来我将分享在这一阶段我学习到的知识！

首先，我了解到了AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式。并且很早就有专家指出，AIGC将是未来人工智能的重点方向，也将改造相关行业和领域生产内容的方式。

对于我们来说，学习ALGC可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图。

对于创作来说，学习ALGC可以提高自己的制图效率，快速制作自己所需要的内容。

对于技术来说，了解AIGC有关的技术和知识，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具。

其次，我学习到了AI生图的历史。最早的AI生图可追溯到20世纪70年代，当时由艺术家哈罗德·科恩（Harold Cohen）发明AARON，可通过机械臂输出作画。

现代的AI生图模型大多基于深度神经网络基础上训练，最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。

2015年，谷歌推出了“深梦”（Deep Dream）图像生成工具，类似一个高级滤镜，可以基于给定的图片生成梦幻版图片。

2021 年 1 月 OpenAI 推出DALL-E模型（一个深度学习算法模型，是GPT-3 语言处理模型的一个衍生版本），能直接从文本提示“按需创造”风格多样的图形设计。

一般来说，AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

通过学习大量画家的作品，AI生图模型 往往可以照猫画虎绘制出类似的画作，在2022年8月，AI生图真正走进了大众的视野，让各个领域无法忽视。

然后，AI的生图能力也有很多的缺陷和不足。这是因为每个模型用于训练的数据是有限的且不一定相同的，它们能匹配的描述和特征也是有限的，所以在风格、具体事物上，不同的模型会有很大的生成差异，且可能存在诸多与现实不符的情况。

并且在大部分生图场景下，我们可能经常会觉得图片存在“AI味”，这很长一段时间也是科研界和相关从业人员非常头大的问题。

所以，我们在进行输入生图提示词时，需要进行大量的调查和尝试，尽量让AI的风格更趋向于事实，到达我们想要的水平和图片。

但同时，AI生图技术的成熟也会带来很多风险，例如诈骗或误导他人。AI生图技术可能可以模拟亲人的图片或视频进行欺诈，也有可能捏造事实，从而影响大众的判断，因此，我们在辨别可能需要非常仔细地——

观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴
检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，是否存在不自然的光线或阴影
分析像素。放大图片，寻找是否有模糊或像素化的部分。
注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。

接下来，我将推荐一个非常好用的AI智能助手--通义千问。它是具有信息查询、语言理解、文本创作等多能力的AI助手。它可以通过输入问题来进行回答，是我们专属的、可随时触达的、24小时随时待命的贴心助教，可以帮助我们解决很多学习中遇到的问题。

就像在上一阶段运行的所有baseline，我们都可以通过搜索框对于这些baseline的代码进行询问，通义千问就可以根据我们的问题，给予我们解答。

例如，我们询问数据整理与训练这一部分的代码，每一条都代表着什么意思，通义千问就可以很快的给予我们回复，如果我们还是不理解，也可以逐条进行追问。

不用担心的是，通义千问很有耐心，可以逐一帮我们解惑！

最后，就是实操环节啦！

我会根据教学资料里所提供的话术，向通义千问询问基于话剧的连环画制作所需要的提示词该怎么写。

例如，我会向通义千问输入：

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧话剧由8张场景图片生成，你需要输出每张图片的生图提示词具体的场景图片

1、女主正在上课，目视前方，身穿红色吊带长裙

2、开始睡着了

3、进入梦乡，梦到自己身穿红色长裙站在一棵白色大树下，前面有一个穿着黑色华贵服饰的看不清的人

4、被拉着在田野里往前狂奔，男生穿着黑色华贵服饰拉着女生的手，女生穿着红色古风长裙，笑着看着他，手指指向远方漂亮的花圃

5、两人坐在花圃中相谈甚欢

6、一起坐在秋千上，旁边有好多小动物

7、下课了，梦醒了

8、在回家的路上若有所思

生图提示词要求

1、风格为古风

2、根据场景确定是使用全身还是上半身

3、人物描述

4、场景描述

5、做啥事情

6. 女生的外貌描写，要很漂亮和优秀

例子：古风，水墨画，一个黑色长发少女，坐在教室里，盯着黑板，深思，上半身，红色长裙

从而生成我想要制作的八张图片。

怎么样？这几张图是不是很漂亮？我对于这一次的生图结果非常满意。

然后大家就可以根据自己的兴趣进行展示啦。既可以放在自己的桌面上，手机里，也可以再次参加可图Kolors-LoRA风格故事挑战赛。

在这一阶段，我们不仅可以学习到这些内容，还有些其他的AI生图工具可以使用，例如Scepter和WebUI这两个工具，但我也还没有很熟练的使用这两个工具。学习内容我就放在最后面的链接里了，欢迎各位小伙伴进行学习，那今天的分享就到这里啦，拜拜！

官方教程链接：Datawhale

Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向