Datawhale X 魔搭 AI0夏令营魔搭-AIGC文生图方向 Tsak 1-CSDN博客

本文链接：https://blog.csdn.net/Destinycccc/article/details/141104862

本文为AI方向小白记录暑期参加魔搭夏令营-AIGC文生图方向的Task 01

报名赛事链接：https://tianchi.aliyun.com/competition/entrance/532254

欢迎所有小白，大神前来交流学习。

一.文生图相关基础知识介绍

1.1 文生图的介绍

文生图是AIGC ( AI Generated Content ）框架中的一个关键技术，通过文字描述，将文字转化为图像并展示出来。以文生图具有白动化程度高、精度高、可扩展性强、可定制化等优势，具有广泛的应用前景，可以为人们提供更便捷高效的绘图解决方案。

文生图的功能：
（1）文字转图像：将输入的文字转化为图像效果，使文本更加生动。
（2）图像定制：用户可以选择不用的颜色，字体，背景，作画风格等，定制自己喜欢的图像。

接下来，我们简单了解下提示词、lora、ComfyUI和参考图控制这些知识点。

提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

举个例子

【promts】Beautiful and cute girl, smiling, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, super detail, 8k

【负向prompts】(lowres, low quality, worst quality:1.2), (text:1.2), deformed, black and white,disfigured, low contrast, cropped, missing fingers

其中promts代表的是希望出现的元素，即正向描述词，就是希望这些元素出现在你的图片里面，例如你希望得到一个苹果，在promts中你就可以添加一个单词"apple"；

而nagetive_prompt(负向prompts)则是代表不希望出现在你的图片中的元素，即反向提示词，通常我们不希望AI生成的图片所包含的元素是丑陋的，变形的，对比度低的，我们就可以在这个项目中加入这些词汇

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank-Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

LoRa设备和LoRaWAN标准为物联网应用提供了引人注目的功能，包括远程、低功耗和安全数据传输。该技术被公共、私有或混合网络所利用，并提供比蜂窝网络更大的范围。部署可以轻松集成到现有基础设施中，并支持低成本电池供电的物联网应用。LoRa芯片组集成到由大型物联网解决方案提供商生态系统制造的设备中，并连接到全球网络。简单地说，LoRa将设备连接到云，为事物提供“声音”——使世界成为一个更美好的生活、工作和娱乐场所

ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

在ComfyUI平台的前端页面上，用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

二.让我们开始我们的第一个baseline吧！

2.1 开通阿里云互交式建模PAI-DSW试用

链接：阿里云免费试用 - 阿里云

2.2 在魔塔社区搭建PAI实例

接下来，我们在魔塔社区报名参赛

赛事链接：https://tianchi.aliyun.com/competition/entrance/532254

接下来，启动我们的实例，进行baseline的搭建

接下来我们打开终端，下载baseline文件，执行以下代码，下载lfs以及克隆kolors

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

完成完baseline环境的下载后，我们进入kolors目录下的baseline.ipynb

接下来我们点击进行环境的安装

我们点击代码块的左上角绿色执行按钮执行代码块，进行Data-Juicer 和 DiffSynth-Studio的安装

安装完对应环境后，我们对Notebook Kernel进行重启

在重启完Kernel后，我们对想要生成的图片进行调整，我们滑到这个目录的下方区域，

我们在prompt中输入自己想要的事物，negative_prompt中输入不想要生成的，我们一共可以输入8张图片的信息，我们可以利用这8张照片编写一段小漫画故事，例如我这里想生成一个贫困少年靠自己在电竞中走出一条出路，走向全世界的故事，虽然生成的不太理想，但是也是我对AI的初尝试了，下面是我在Task中生成的自己的一段漫画：