Datawhale X 魔搭 AI夏令营

Beiyi_P

已于 2024-08-14 10:32:03 修改

阅读量376

点赞数 15

文章标签：人工智能

于 2024-08-14 09:57:09 首次发布

本文链接：https://blog.csdn.net/m0_72527524/article/details/141181082

版权

AI生图原理&实践

Datawhale

大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现，标志着文生图技术进入了一个新的时代。

CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。

文生图基础知识介绍

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

举个例子

【promts】Beautiful and cute girl, smiling, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, super detail, 8k

【负向prompts】(lowres, low quality, worst quality:1.2), (text:1.2), deformed, black and white,disfigured, low contrast, cropped, missing fingers

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

在ComfyUI平台的前端页面上，用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

参考图控制类型	简介
OpenPose姿势控制	输入是一张姿势图片（或者使用真人图片提取姿势）作为AI绘画的参考图，输入prompt后，之后AI就可以依据此生成一副相同姿势的图片；
Canny精准绘制	输入是一张线稿图作为AI绘画的参考图，输入prompt后，之后AI就可以根据此生成一幅根据线稿的精准绘制。
Hed绘制	Hed是一种可以获取渐变线条的线稿图控制方式，相比canny更加的灵活。
深度图Midas	输入是一张深度图，输入prompt后，之后AI就可以根据此生成一幅根据深度图的绘制。
颜色color控制	通过参考图控制和颜色控制，实现更加精准和个性化的图像生成效果。

零代码文生图Lora模型训练

魔搭平台现推出的零代码图像模型训练工具，您只需提供几张图片，即可训练出专属的lora风格模型，并直接使用该模型生成新的图片。让我们一键开始使用魔搭的图像模型训练工具（点击跳转工具）

魔搭热门文生图AI应用集锦

现在我们来看看在文生图领域，有哪些好用的工具：

更多好玩有用的AI应用，大家可以去魔搭AIGC专区自己探索！

工具类型	应用名称	应用简介	体验效果	更多内容详见
基础图片生成工具	FLUX文生图模型体验空间 (点击即可跳转体验)	该应用由阿里muse团队推出，是目前最强的开源文生图模型之一，在文字生成、复杂指令遵循和人手生成上具备优势。		消费级显卡，17G显存，玩转图像生成模型FLUX.1！
	可图文生图 (点击即可跳转体验)	可图是快手开源的一种名为Kolors（可图）的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。生成效果接近Midjourney-v6 水平，而且可输入长达256 tokens的文本，最重要的可以渲染中文。		AI绘画社区新成员：快手开源可图文生图模型，支持双语，可写中文！
	Stable Diffusion XL 1.0 (点击即可跳转体验)	所有文生图应用的祖师爷，不必多说，YYDS。继SDXL 0.9的有限、仅供研究发布之后，SDXL的完整版本是目前最好的开源图像生成模型。
办公提效工具	锦书 - 创新艺术字 (点击即可跳转体验)	创意艺术字生成。通过自定义的概念，对文字进行变形和纹理生成，构建富有创意的个性化字形和纹理。七夕在即，给正在学习的大家说声：七夕节快乐！！！
办公提效工具	创意海报生成 (点击即可跳转体验)	做海报不求人！创意海报生成，自由设计，瞬间点亮创意生活。咱就是说给夏令营生成一个海报，太酷了