Datawhale AI夏令营第四期 AIGC方向 task01 初学者笔记-CSDN博客

本文链接：https://blog.csdn.net/forestine/article/details/141072570

一、相关概念介绍：
1、文生图技术：

文生图技术，全称为“文本到图像生成技术”（Text-to-Image Generation），是一种利用人工智能技术，根据用户输入的文字描述来生成相应图像的方法。这项技术近年来在艺术创作、广告营销、游戏设计等多个领域展现出了巨大的潜力和广泛的应用前景。

2、提示词：

提示词在中文中意为“触发”或“引导”。在自然语言处理（NLP）领域，提示词是指用户向大型语言模型输入的文本，用于指导模型生成特定的输出。这些输入可以是完整的问题、对话片段、指令，甚至仅是单词或句子。模型会根据这个提示词来产生相应的回应或输出，因此提示词可以看作是与模型的“对话起点”或“引导信号”。

3、Lora技术：
LoRa（Long Range Radio）是一种基于扩频技术的远距离无线传输技术，由Semtech公司开发。该技术主要用于物联网（IoT）领域，旨在实现低功耗和远距离的数据传输。

4、ComfyUI：
ComfyUI是一款基于节点工作流稳定扩散算法的图形界面，主要用于AI绘画、图像处理、动画、影视及AI视频等领域。

二、操作过程：
1、下载baseline文件：

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

2、安装环境，然后重启kernel：

3、处理数据集：

4、处理模型：

5、生成图片：

图片生成代码：

torch.manual_seed(num)
image = pipe(
    prompt="需求设定",
    negative_prompt="需要避免的设定",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("num.jpg")

图片展示：

三、总结：
在运行的过程中，遇到了一些问题，如缺失文件、超显存导致加载模型出错等等，经过不断的尝试，解决了这些问题，在最后成功生成了图片。

从这一次的练习中，我认识到了文生图技术，了解了这项技术的运行原理，以及实际操作并得到了自己的作品，我收获颇多。

感谢您给予我这篇文章的关注与阅读。期待不久的将来，再次与您分享更多精彩。