Datawhale X 魔塔 AI夏令营-AIGC文生图方向 Task1笔记

最新推荐文章于 2024-09-14 16:43:45 发布

Hans0000

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量432

点赞数 4

文章标签：人工智能 AIGC 笔记

本文链接：https://blog.csdn.net/Hans0000/article/details/141112859

版权

先前对于AI文生图的了解只停留在利用“可灵AI”、“文心一格”等成型的应用软件进行操作，为了更深层次地了解其背后生成的逻辑及原理，报名了Datawhale 2024 年的AI 夏令营-从零入门AI生图原理&实践。

一.Task 1任务介绍

此次训练营主要分为3个task，task 1主要是
1.介绍、解读并报名魔搭社区创办的“可图Kolors-LoRA风格故事挑战赛”，为此次训练营成果展示提供了一个平台。
2.介绍文生图的发展历程以及其相关基础知识：prompt、lora、ComfyUI和参考图控制的概念
3.通过注册申请阿里云PAI-DSW（Data Science Workshop）以及授权魔塔社区，搭建轻便的代码环境

图源往期夏令营小伙伴的优秀笔记的截图，链接：http://t.csdnimg.cn/8Dvdm。这两段话通俗易懂地解答了我对于“为什么前期要注册阿里云和魔塔这两个平台”的困惑。具体如何注册和申请可以看他这篇详细的介绍。

4.一切就绪，30分钟跑通一站式Baseline！具体如何跑也可以看↑他那篇文章

二.个人学习体会
1.当前Baseline的训练图库素材有限，造成对部分缺乏的图片风格和元素呈现出来的效果不如意。我大致抽样翻看了图库里的近70张照片，发现全都是二次元人物的风格和主题。我首次设定的八张图片都是赛博朋克风，效果非常一般，我所描述的象征型元素几乎都没有呈现出来，这从正、侧面可以印证该图库风格单一的问题。后续可以调整训练图库的照片，导入我喜欢的风格的素材。

2.此次赛事限定只能用八张AI生成的图片来讲述一个故事，这使我最初想讲述一个短过程故事的想法受限。短过程故事具体会带来几个难点，首先场景的切换会要求有些连贯，例如从房间里面到房间外面，如何保证图片风格和特征的一致性；其次要求人物特征以及细节要到位，但是目前这个模型还无法精确地呈现prompt中的部分细节。
如何解决这两个问题或者跳脱出这两个问题去实现短过程故事的创作，是我后续学习如何微调模型等知识的发力点。