Datawhale AI夏令营第四期魔搭-AIGC方向 task02笔记

叹惜62

已于 2024-08-12 17:16:25 修改

阅读量631

点赞数 7

文章标签：人工智能

于 2024-08-12 16:27:43 首次发布

本文链接：https://blog.csdn.net/2302_79684484/article/details/141126592

版权

一、引言

AI成图技术，即利用计算机算法和深度学习技术自动生成符合特定要求的图片，是近年来人工智能领域的一个重要突破。这一技术通过训练神经网络，使计算机能够不依赖于人类输入，自动创作出具有艺术价值和实用性的图像。比如：通义千问，Chat助手，文心一言，聪明灵犀，HeyFriday，AI创作家

二、技术原理

AI成图技术的核心在于深度学习中的生成对抗网络（GAN）。GAN由两个主要部分组成：生成器（Generator）和判别器（Discriminator）。生成器的任务是从随机噪声中生成图像，而判别器则负责判断这些图像是真实的还是由生成器生成的。通过两个网络的不断对抗和协作，生成器的生成能力逐渐提升，最终能够生成与真实图像难以区分的图像。

除了GAN，还有其他机器学习技术如变分自编码器（VAE）和条件生成对抗网络（CGAN）等，也在图像生成领域发挥着重要作用。这些技术各有特点，但共同目标是让计算机具备自主生成具有意义的图像的能力。

三、应用领域

AI成图技术的应用领域极为广泛，以下是一些主要的应用场景：

艺术创作：AI成图技术可以根据艺术家的创作要求，生成全新的艺术作品，甚至模仿历史上著名艺术家的风格。
游戏开发：在游戏设计中，AI成图技术可用于创造特别的游戏场景、角色和道具，提高游戏的逼真度和互动性。
广告设计：生成吸引眼球的广告图像，增强广告的创意性和吸引力。
媒体与出版：用于杂志、书籍和在线内容的插图，提供多样化的视觉元素。
教育领域：作为教学辅助工具，帮助解释复杂概念或创造互动教学材料。
产品设计与原型：快速创建产品原型，帮助设计师评估设计效果。
虚拟现实与增强现实：在VR和AR应用中创造沉浸式的视觉体验。
医疗辅助：帮助医疗专业人员理解复杂的医学图像和数据，辅助诊断和治疗。

此外，AI成图技术还在电影特效、个性化服务、服装设计、室内设计等多个领域展现出巨大的潜力。

四、发展趋势

随着技术的不断进步，AI成图技术将在以下几个方面迎来更大的发展：

多模态模型的发展：未来的AI成图技术将更加注重多模态模型的发展，能够处理文本、声音、图像等多种输入信息，并将其融合起来进行综合理解。这种能力将使AI在更多复杂场景下发挥作用。
视频生成能力的提升：随着Stable Video Diffusion和Pika 1.0等文本生成视频技术的兴起，AI在视频生成领域的能力将得到大幅提升。这将推动视频制作、广告宣传等领域的变革。
AI智能体的发展：AI智能体将成为未来的一个重要发展方向。这些智能体能够代替用户做出行动，如预定餐厅、购买物品等，使人与计算机的交互更加自然和高效。
开源与专有模型的竞争：开源人工智能模型正逐渐走在超越专有模型的路上。随着更多企业和学术机构的加入，开源AI模型的生态将更加丰富和完善，为AI成图技术的发展提供更强有力的支持。

五、AI生图模型的使用

这次学习活动、可图Kolors-LoRA风格故事挑战赛、魔搭社区的各类AIGC工具 开始，持续探索、尝试、思考总结、实践，

模型可图 · 模型库 (modelscope.cn)

右上角点击notebook快速开发，进行快速创作。

五.精读baseline——从零入门AI生图

1、任务：对于代码的分析和阅读从两个方面入手：

分析代码的主题架构；
逐行代码解析。
在分析代码前首先你要用一段话前缀一下，方便AI知道你想要干什么“你是一个优秀的python开发工程师，现在我们需要你帮我们分析这个代码的主体框架，你需要把代码按照工作流分成几部分，用中文回答我的问题。{放入代码}”。将代码输入后会出现具体注释。例如：输入baseline代码后输出结果就包含了一下的过程

2、利用AI辅助学习

打开通义千问，先输入提示词：

你是一个优秀的python开发工程师，现在我们需要你帮我们分析这个代码的主体框架，你需要把代码按照工作流分成几部分，用中文回答我的问题。{代码}

通义返回结果：

这段代码主要完成以下功能：

安装和卸载一些Python包。
从ModelScope加载一个名为lowres_anime的数据集，并保存图像到指定目录。
创建并处理一个用于数据清洗的JSONL文件。
使用data-juicer工具过滤和处理数据集。
将处理后的数据集转换为CSV格式。
根据数据集通过DiffSynth做Lora微调
加载Lora微调后的模型
设置提示词，用微调后的模型生成图片

六、实战演练一一基于话剧的连环画制作

1、提示词

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧
话剧由8张场景图片生成，你需要输出每张图片的生图提示词
 
具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡，梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了，梦醒了
8、又回到了学习生活中
 
生图提示词要求
1、风格为古风
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情
 
例子：
古风，水墨画，一个黑色长发少女，坐在教室里，盯着黑板，深思，上半身，红色长裙

通义返还：

第一张图片：女主正在上课
古风，工笔画，一位黑发少女，身着淡雅青衫，坐在古色古香的学堂内，专注地注视着先生讲解的竹简，上半身特写，学堂内摆放着几案和毛笔。
第二张图片：开始睡着了
古风，淡墨勾勒，同一黑发少女，头轻轻垂在桌案上，手中握着一支未落下的毛笔，半闭着眼睛，嘴角挂着一丝微笑，上半身特写，学堂内的其他学生若隐若现。
第三张图片：进入梦乡，梦到自己站在路旁
古风，细腻水彩，黑发少女身着轻纱长裙，站在一条古道边，身后是一片葱郁的竹林，四周弥漫着淡淡的雾气，全身展示，少女面带期待之色。
第四张图片：王子骑马而来
古风，浓墨重彩，一位英俊少年骑着一匹白马缓缓靠近，白马鬃毛飞扬，少年身着华丽服饰，眼神坚定，全身展示，背景为古道与远处的山峦。
第五张图片：两人相谈甚欢
古风，细致工笔，黑发少女与英俊少年并肩站立于花丛之中，两人目光交汇，表情愉悦，周围是绽放的牡丹花，上半身特写，少年手执折扇，少女手持书卷。
第六张图片：一起坐在马背上
古风，柔和线条，少女与少年同乘一匹白马，少年稳坐马鞍，少女轻倚其后，双手环绕少年腰间，全身展示，背景为一片开阔的草原。
第七张图片：下课了，梦醒了
古风，淡雅水墨，黑发少女从梦中惊醒，眼神中带着一丝迷茫，坐在学堂内，周围的学生们正收拾东西准备离开，上半身特写，桌上散落着书简。
第八张图片：又回到了学习生活中
古风，细致描绘，黑发少女回到日常的学习生活中，与其他同学一同围坐在学堂内，专心听讲，上半身特写，学堂内气氛和谐，书声琅琅。

torch.manual_seed(1)

image = pipe( prompt="二次元，日系动漫，演唱会的观众席，人山人海，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，舞台上衣着华丽的歌星们在唱歌", negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",

cfg_scale=4, num_inference_steps=50, height=1024, width=1024, )

image.save("1.jpg")

打开生图工具：通过改变红色字体可以得到你所描述的图片，但是由于之前是运行过一次代码的，所以这次当全部描述好后，你需要重启代码运行，而不只是运行生图的那几行。

生成效果图

接下来就是微调即可。

叹惜62

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营第四期魔搭-AIGC方向 task02笔记

AI成图技术的核心在于深度学习中的生成对抗网络（GAN）。通过两个网络的不断对抗和协作，生成器的生成能力逐渐提升，最终能够生成与真实图像难以区分的图像。：未来的AI成图技术将更加注重多模态模型的发展，能够处理文本、声音、图像等多种输入信息，并将其融合起来进行综合理解。随着更多企业和学术机构的加入，开源AI模型的生态将更加丰富和完善，为AI成图技术的发展提供更强有力的支持。二次元，日系动漫，演唱会的观众席，人山人海，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，舞台上衣着华丽的歌星们在唱歌。
复制链接

扫一扫