Datawhale X 魔搭 AI夏令营-AIGC文生图方向Task1笔记

最新推荐文章于 2024-09-14 16:43:45 发布

Iridessa_Q

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量722

点赞数 13

文章标签：人工智能 AIGC 笔记

本文链接：https://blog.csdn.net/Iridessa_Q/article/details/141112563

版权

hi大家好，本人小白一枚~~~机缘巧合来到了Datawhale夏令营提升自己一些技能。

原本奔着优秀成员的热血而来，但苦于技术性很强的东西不太会补充和讲解，同时也不太熟练笔记的分段和引用这些功能，因此第一篇笔记是一篇纯心得。

为什么要写笔记？

笔记是对自己经历的总结，同时步骤详细的总结可以给他人带来帮助，比如我，除了学习官方文档的步骤，也结合了csdn上的一篇优秀案例进行部署，学习不同的成功步骤大大加快了我的上手，提高了成功率，多看多避免出错。

关于文生图？

关于文生图在官方文档里有作讲解，我觉得对于我以后的学习很有指导，因此在这里分享。

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。

进入2020年代，大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现，标志着文生图技术进入了一个新的时代。

CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。

这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断，展现了广泛的商业价值和社会影响力。

提示词

一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

【promts】Beautiful and cute girl, smiling, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, super detail, 8k

【负向prompts】(lowres, low quality, worst quality:1.2), (text:1.2), deformed, black and white,disfigured, low contrast, cropped, missing fingers

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。

ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。