Datawhale X 魔搭 AI夏令营 task02笔记

Part0:探索前沿:了解一下 AI生图技术 的能力&局限


       有些同学可能对于AI可以生成什么样的图片、AI生图有哪些风险和挑战并不是很了解。在这里我们想先给大家再补充一点背景知识,让大家了解其中的风险和难点。

       另外,也将从技术视角拆解AI生图相关工具,让大家更清楚自己的预期场景,能否使用AI生图解决,或部分解决,以及追踪更多AI生图前沿的信息。

1.为什么要了解AI生图前沿?

       AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式,很早就有专家指出,AIGC将是未来人工智能的重点方向,也将改造相关行业和领域生产内容的方式。

       AI生图则是其中最早被大众所熟知并广泛被认可的AIGC领域,首先我们来看一个新闻(原文入口)——

插入一段小常识,提醒大家警惕Deepfake技术

       Deepfake是一种使用人工智能技术生成的伪造媒体,特别是视频和音频,它们看起来或听起来非常真实,但实际上是由计算机生成的。这种技术通常涉及到深度学习算法,特别是生成对抗网络(GANs),它们能够学习真实数据的特征,并生成新的、逼真的数据。

       Deepfake技术虽然在多个领域展现出其创新潜力,但其滥用也带来了一系列严重的危害。在政治领域,Deepfake可能被用来制造假新闻或操纵舆论,影响选举结果和政治稳定。经济上,它可能破坏企业形象,引发市场恐慌,甚至操纵股市。法律体系也面临挑战,因为伪造的证据可能误导司法判断。此外,深度伪造技术还可能加剧身份盗窃的风险,成为恐怖分子的新工具,煽动暴力和社会动荡,威胁国家安全。

2.再来从工具视角回顾一下AI生图的历史

       最早的AI生图可追溯到20世纪70年代,当时由艺术家哈罗德·科恩(Harold Cohen)发明AARON,可通过机械臂输出作画。

       现代的AI生图模型大多基于深度神经网络基础上训练,最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。它使用卷积神经网络(CNN)训练,证明了深度学习模型能够学习到图像的复杂特征。

       2015年,谷歌推出了“深梦”(Deep Dream)图像生成工具,类似一个高级滤镜,可以基于给定的图片生成梦幻版图片——

       2021 年 1 月 OpenAI 推出DALL-E模型(一个深度学习算法模型,是GPT-3 语言处理模型的一个衍生版本),能直接从文本提示“按需创造”风格多样的图形设计——

       在当时,就已经被一些媒体评价为:“ 秒杀50%的设计行业打工人应该是没有问题的,而且是质量和速度双重意义上的“秒杀” ”。

       一般来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片

       通过学习大量画家的作品,AI生图模型 往往可以照猫画虎绘制出类似的画作,在2022年8月AI生图真正走进了大众的视野,让各个领域无法忽视

       当时让AI生图破圈的是AI绘画作品《太空歌剧院》,该作品在美国科罗拉多州举办的新兴数字艺术家竞赛中获得了比赛“数字艺术/数字修饰照片”类别一等奖,引起了当时“艺术家们 Not Happy”的社会舆论。

 

3.AI生图的难点和挑战有哪些?

       往前一年,AI绘画还不会画“手”——

       也因为当时这个情况,产生了很多解决这个问题的相关技术,如:给图片里的人手打上标记,像把手掌、拇指、食指啥的,都给清楚地标出来;

       我们现在还可以经常在各类自媒体的文章中看到“AI翻车”的案例,那些往往也是需要解决的难点,某些“翻车”现象,也许在业界已有相关的解决方案。

       由于每个模型用于训练的数据是有限的且不一定相同的,它们能匹配的描述和特征也是有限的,所以在风格、具体事物上,不同的模型会有很大的生成差异,且可能存在诸多与现实不符的情况。而这些问题,就是业界和科研界持续在想办法解决的问题。

4.开始探索AI生图前沿

       回到主题,我们要探索AI生图的前沿,就必须有一个持续更新,且我们持续愿意跟进和投入时间的“主线”引导,例如,可以从这次学习活动可图Kolors-LoRA风格故事挑战赛魔搭社区的各类AIGC工具 开始,持续探索、尝试、思考总结、实践,甚至开始持续创作自己的作品/工具

       AI生图自破圈以来,被科研界、业界广泛关注,且引发了各大厂商的模型之战,如我们这次学习活动所需要用到的Kolors(可图)模型(点击即可跳转魔搭模型介绍页),就是其中的一个产物——

Kolors(可图)模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。

代码开源链接:https://github.com/Kwai-Kolors/Kolors

模型开源链接:https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明:https://www.modelscope.cn/learn/575?pid=543

       过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔搭社区还开源了专门的各种风格的       可图优质咒语书(点击即可跳转),可以针对600+种不同风格,完善prompt,生成各种风格图片,可以在我们的学习当中使用—— 

5.通过魔搭社区持续探索AI生图前沿

        在某些设计的场景中,我们还希望AI能为我们将特定的文字生成在图片当中,比如下面这种海报——

 

        但实际上,这种固定文字生成,往往难度较大,一是具体生成在哪些位置,往往需要人为设定,为了更方便地制作类似这样的海报还产生了PS等图片编辑工具,才能实现相应的效果,想要让AI稳定生成相似效果的图片可想而知难度之大。

       像我们Task1中介绍的 创意海报生成 工具,早已在代码中固定了相应的文字位置和对应的字体,才能进行相应的生成,且大概率是进行了两个步骤——

  • 一个步骤是AI生成背景,

  • 另一个步骤是通过代码将对应的文字显示到对应位置,

  • 然后渲染,合成图片,给到我们。

       事实上,我们可以通过魔搭社区上感兴趣的工具,尝试思考——

  • 可以用在哪些业务里?有哪些行业在使用?

  • 用的是哪个 AI 模型?

  • 是自己部署的AI模型,还是用的API?

  • 使用到了哪些 AI 能力?

  • 如果要复现,需要做哪些额外的设置和开发?

  • 还可以有哪些优化点?

       最方便的是,我们还可以直接点到空间文件,进行相关代码的查看甚至下载在 本地/云服务器 复现,以验证思考 & 学习相关的设计开发:   

        魔搭社区还有各种资料,可以供我们学习&探索AI生图的前沿——

Part1:磨刀准备一一认识通义千问 

学习说明:

我们计划使用通义千问大语言模型来告诉大家如何借助AI智能助手帮我们阅读代码。工欲善其事必先利其器,现在让我们请出今天的主角,通义千问(点击直达)。

📢:注意

  1. 使用大语言模型比较频繁的学习者可跳过这部分内容。

  2. 也可以自行选择其他的大语言模型使用,学习过程中不做限制。

  3. 通义系列产品也有文生图的工具:通义万相,大家感兴趣可以自己体验。

1.通义千问的自我介绍

      首先,我们来看下它的自我介绍。通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。我们可以看到,编程与技术支持能力是它的强项之一。

        接下来我们把场景聚焦到编程与技术支持这个方向,让他详细介绍下自己可以如何帮助大家编程。

2.抱走你的AI学习助教

作为一个AI助手,通义千问就是你专属的、可随时触达的、24小时随时待命的贴心助教,可以帮助你解决很多学习中遇到的问题。

所以当你遇到学习问题的时候,问问千问吧。在这里请接收一下通义千问的邀请函!👉

Part2:精读baseline——从零入门AI生图 

       这部分内容比较多,可以通过官方链接详细了解:Datawhaleicon-default.png?t=N7T8https://linklearner.com/activity/14/10/32

Part3:实战演练一一基于话剧的连环画制作 

      上方链接有详细教程,给大家展示一下我的成果

Part4:更多的选择一一浅尝scepter webui 

1.浅尝功能

魔搭体验网址:https://www.modelscope.cn/studios/iic/scepter_studio

2.核心组件

3.私有部署(挑战型

       魔搭社区提供的体验地址里面缺失了微调模型的功能,如果大家希望能使用secpter完整的功能,我们可以将其私有部署到我们自己的服务器。

github地址:https://github.com/modelscope/scepter

       可以通过官方readme文件中的教程进行操作,该模块对基础有一定的要求,适合学有余力的同学PS:如果在安装中遇到各种问题,别忘了这节课的老朋友,尽管向通义等AI工具提问~~~~~

 

  • 26
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值