Datawhale AI夏令营第四期 魔搭-AIGC方向 task02笔记

一、引言

AI成图技术,即利用计算机算法和深度学习技术自动生成符合特定要求的图片,是近年来人工智能领域的一个重要突破。这一技术通过训练神经网络,使计算机能够不依赖于人类输入,自动创作出具有艺术价值和实用性的图像。比如:通义千问,Chat助手,文心一言,聪明灵犀,HeyFriday,AI创作家

二、技术原理

AI成图技术的核心在于深度学习中的生成对抗网络(GAN)。GAN由两个主要部分组成:生成器(Generator)和判别器(Discriminator)。生成器的任务是从随机噪声中生成图像,而判别器则负责判断这些图像是真实的还是由生成器生成的。通过两个网络的不断对抗和协作,生成器的生成能力逐渐提升,最终能够生成与真实图像难以区分的图像。

除了GAN,还有其他机器学习技术如变分自编码器(VAE)和条件生成对抗网络(CGAN)等,也在图像生成领域发挥着重要作用。这些技术各有特点,但共同目标是让计算机具备自主生成具有意义的图像的能力。

三、应用领域

AI成图技术的应用领域极为广泛,以下是一些主要的应用场景:

  1. 艺术创作:AI成图技术可以根据艺术家的创作要求,生成全新的艺术作品,甚至模仿历史上著名艺术家的风格。
  2. 游戏开发:在游戏设计中,AI成图技术可用于创造特别的游戏场景、角色和道具,提高游戏的逼真度和互动性。
  3. 广告设计:生成吸引眼球的广告图像,增强广告的创意性和吸引力。
  4. 媒体与出版:用于杂志、书籍和在线内容的插图,提供多样化的视觉元素。
  5. 教育领域:作为教学辅助工具,帮助解释复杂概念或创造互动教学材料。
  6. 产品设计与原型:快速创建产品原型,帮助设计师评估设计效果。
  7. 虚拟现实与增强现实:在VR和AR应用中创造沉浸式的视觉体验。
  8. 医疗辅助:帮助医疗专业人员理解复杂的医学图像和数据,辅助诊断和治疗。

此外,AI成图技术还在电影特效、个性化服务、服装设计、室内设计等多个领域展现出巨大的潜力。

四、发展趋势

随着技术的不断进步,AI成图技术将在以下几个方面迎来更大的发展:

  1. 多模态模型的发展:未来的AI成图技术将更加注重多模态模型的发展,能够处理文本、声音、图像等多种输入信息,并将其融合起来进行综合理解。这种能力将使AI在更多复杂场景下发挥作用。

  2. 视频生成能力的提升:随着Stable Video Diffusion和Pika 1.0等文本生成视频技术的兴起,AI在视频生成领域的能力将得到大幅提升。这将推动视频制作、广告宣传等领域的变革。

  3. AI智能体的发展:AI智能体将成为未来的一个重要发展方向。这些智能体能够代替用户做出行动,如预定餐厅、购买物品等,使人与计算机的交互更加自然和高效。

  4. 开源与专有模型的竞争:开源人工智能模型正逐渐走在超越专有模型的路上。随着更多企业和学术机构的加入,开源AI模型的生态将更加丰富和完善,为AI成图技术的发展提供更强有力的支持。

五、AI生图模型的使用

这次学习活动可图Kolors-LoRA风格故事挑战赛魔搭社区的各类AIGC工具 开始,持续探索、尝试、思考总结、实践

模型可图 · 模型库 (modelscope.cn)

右上角点击notebook快速开发,进行快速创作。

五.精读baseline——从零入门AI生图

1、任务:对于代码的分析和阅读从两个方面入手:

  1. 分析代码的主题架构;

  2. 逐行代码解析。

          在分析代码前首先你要用一段话前缀一下,方便AI知道你想要干什么“你是一个优秀的python开发工程师,现在我们需要你帮我们分析这个代码的主体框架,你需要把代码按照工作流分成几部分,用中文回答我的问题。{放入代码}”。将代码输入后会出现具体注释。例如:输入baseline代码后输出结果就包含了一下的过程         

2、利用AI辅助学习

打开通义千问,先输入 提示词:

你是一个优秀的python开发工程师,现在我们需要你帮我们分析这个代码的主体框架,你需要把代码按照工作流分成几部分,用中文回答我的问题。{代码}

通义返回结果:

这段代码主要完成以下功能:

  1. 安装和卸载一些Python包。

  2. 从ModelScope加载一个名为lowres_anime的数据集,并保存图像到指定目录。

  3. 创建并处理一个用于数据清洗的JSONL文件。

  4. 使用data-juicer工具过滤和处理数据集。

  5. 将处理后的数据集转换为CSV格式。

  6. 根据数据集通过DiffSynth做Lora微调

  7. 加载Lora微调后的模型

  8. 设置提示词,用微调后的模型生成图片

六、实战演练一一基于话剧的连环画制作

1、提示词

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧
话剧由8张场景图片生成,你需要输出每张图片的生图提示词
 
具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡,梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了,梦醒了
8、又回到了学习生活中
 
生图提示词要求
1、风格为古风
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情
 
例子:
古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙

通义返还:

第一张图片:女主正在上课
古风,工笔画,一位黑发少女,身着淡雅青衫,坐在古色古香的学堂内,专注地注视着先生讲解的竹简,上半身特写,学堂内摆放着几案和毛笔。
第二张图片:开始睡着了
古风,淡墨勾勒,同一黑发少女,头轻轻垂在桌案上,手中握着一支未落下的毛笔,半闭着眼睛,嘴角挂着一丝微笑,上半身特写,学堂内的其他学生若隐若现。
第三张图片:进入梦乡,梦到自己站在路旁
古风,细腻水彩,黑发少女身着轻纱长裙,站在一条古道边,身后是一片葱郁的竹林,四周弥漫着淡淡的雾气,全身展示,少女面带期待之色。
第四张图片:王子骑马而来
古风,浓墨重彩,一位英俊少年骑着一匹白马缓缓靠近,白马鬃毛飞扬,少年身着华丽服饰,眼神坚定,全身展示,背景为古道与远处的山峦。
第五张图片:两人相谈甚欢
古风,细致工笔,黑发少女与英俊少年并肩站立于花丛之中,两人目光交汇,表情愉悦,周围是绽放的牡丹花,上半身特写,少年手执折扇,少女手持书卷。
第六张图片:一起坐在马背上
古风,柔和线条,少女与少年同乘一匹白马,少年稳坐马鞍,少女轻倚其后,双手环绕少年腰间,全身展示,背景为一片开阔的草原。
第七张图片:下课了,梦醒了
古风,淡雅水墨,黑发少女从梦中惊醒,眼神中带着一丝迷茫,坐在学堂内,周围的学生们正收拾东西准备离开,上半身特写,桌上散落着书简。
第八张图片:又回到了学习生活中
古风,细致描绘,黑发少女回到日常的学习生活中,与其他同学一同围坐在学堂内,专心听讲,上半身特写,学堂内气氛和谐,书声琅琅。

torch.manual_seed(1)

image = pipe( prompt="二次元,日系动漫,演唱会的观众席,人山人海,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,舞台上衣着华丽的歌星们在唱歌", negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",

cfg_scale=4, num_inference_steps=50, height=1024, width=1024, )

image.save("1.jpg")

打开生图工具:通过改变红色字体可以得到你所描述的图片,但是由于之前是运行过一次代码的,所以这次当全部描述好后,你需要重启代码运行,而不只是运行生图的那几行。

生成效果图

接下来就是微调即可。

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值