详细学习笔记:从零入门AI生图原理与实践
一、活动背景与介绍
本次活动为Datawhale 2024年AI夏令营第四期的学习内容,专注于“AIGC(AI Generated Content,人工智能生成内容)”方向,特别是通过“从零入门AI生图原理与实践”这一主题,帮助初学者了解并掌握AI文生图技术,包括工作流搭建、LoRA微调等关键技能。该活动紧密围绕魔搭社区的“可图Kolors-LoRA风格故事挑战赛”展开,通过实际项目促进学习与实践的结合。
二、文生图技术基础
1. 文生图概念与历史
- 文生图定义:文生图(Text-to-Image Generation)技术利用自然语言处理技术,根据用户输入的文本描述生成相应的图像。
- 发展历程:
- 早期探索(20世纪60年代-90年代):依赖规则和模板匹配,生成图像质量低。
- 基于统计模型的方法(2000年代):利用概率图模型和统计语言模型,图像质量有所提升但仍粗糙。
- 深度学习的崛起(2010年代):卷积神经网络(CNN)和生成对抗网络(GAN)的应用极大提升了图像生成质量。
- 大规模预训练模型(2020年代):如OpenAI的CLIP、DALL-E、Stable Diffusion等模型的出现,推动了文生图技术的商业化和社会应用。
2. 文生图基础知识
- 主要模型:以SD系列基础模型为主,辅以lora模型和人物基础模型。
- 提示词(Prompts):编写提示词时,需包含主体描述、细节描述、修饰词、艺术风格及艺术家等信息,以指导模型生成特定风格的图像。
- LoRA模型:在Stable Diffusion中,LoRA(Low-Rank Adaptation)是一种轻量级的微调方法,用于对预训练模型进行针对性优化,实现对特定主题、风格或任务的精细控制。
- ComfyUI:一个工作流工具,简化AI模型的配置和训练过程,提高工作效率和生成效果。
- 参考图控制(ControlNet):通过引入额外的控制信号(如姿势关键点、分割图、深度图等),精确控制图像生成的各个方面。
三、LoRA风格模型训练
1. 挑战赛任务
- 参赛者需在可图Kolors模型基础上训练LoRA模型,生成多种风格的图像,并组成连贯的故事。
- 生成至少8张图片,故事内容可自定义,风格包括但不限于水墨画、水彩、赛博朋克、日漫等。
2. 技术流程
- 数据集准备:可以使用官方提供的数据集,或自行搜集数据集进行训练。
- 模型微调:使用DiffSynth-Studio等工具对预训练模型进行微调,以适应特定风格或任务。
- 图片生成:加载微调后的模型,输入提示词生成图片。
- 结果上传:将生成的图片和LoRA模型文件上传至魔搭社区,以便复现和评审。
3. 实践操作
- 环境搭建:在魔搭社区创建PAI实例,安装必要的库和工具(如Data-Juicer、DiffSynth-Studio等)。
- 跑通Baseline:下载并运行基线代码,逐步理解代码逻辑和工作流程。
- 调整Prompt:根据需求修改提示词,生成不同风格的图片。
- 模型训练和微调:根据数据集对模型进行微调,优化生成效果。
四、进阶知识与应用
1. 高质量数据集
- 强调高质量数据集对于提升模型效果的重要性,鼓励学员探索不同来源的数据集。
2. 最新技术应用
- 介绍AIGC领域的最新技术进展,如文生图在数字人技术、虚拟试衣等领域的应用案例。
- 鼓励学员关注行业前沿动态,将所学知识应用于实际项目中。
3. 零代码工具
- 介绍魔搭平台提供的零代码图像模型训练工具,使非技术人员也能轻松训练自己的lora风格模型。
五、学习心得与体会
- 理论与实践相结合:通过挑战赛任务和代码实践,深刻理解了文生图技术的原理和实现方法。
- 工具与资源丰富:魔搭社区提供的丰富资源和工具极大地降低了学习门槛,提高了学习效率。
- 团队合作与交流:与群内成员的互动交流不仅解决了疑惑,还拓宽了视野和思路。
六、未来展望
- 继续关注AIGC领域的最新动态和技术进展,不断深化学习。
- 尝试将所学知识应用于更多实际项目中,提升技术水平和创新能力。
- 探索文生图技术在其他领域的应用可能性,如教育、娱乐、医疗等。
七、参考资料与感谢
- 感谢Datawhale和魔搭社区提供的学习资源和机会。
- 感谢群内成员的帮助与支持。
- 推荐参考资料链接:AIGC专题视频课程、AIGC专题品牌馆、模型训练入口。