Datawhale X 魔搭 AI夏令营第四期 Task01

作为AI小白,已经参加了二期与三期的夏令营了,抱着继续学习的态度,接着学习。加油!!!

下面是我这次以文生图(AIGC)方向任务一的学习笔记,按照指导文件的学习大纲我分为四个方面进行进行学习的记录。

一、文生图的历史与来源

       随着人工智能技术的快速发展,文生图(Text-to-Image)技术已经成为了一个备受瞩目的领域。它利用自然语言处理技术,将文字描述转化为生动的图像,打破了传统图像创作的限制,为我们带来了无限可能。

1.文生图技术的崛起

        文生图技术的崛起可以追溯到2014年,当时深度学习技术的兴起为文生图技术的发展奠定了基础。随着计算机视觉和自然语言处理技术的不断进步,文生图技术逐渐从概念走向实践。2016年,OpenAI发布了名为“Generative Adversarial Networks”(GANs)的生成对抗网络模型,为文生图技术的发展注入了新的活力。GANs模型通过训练两个神经网络——生成器和判别器,实现了从文本描述到图像的映射。

2.2022年文生图技术的重要进展

        2022年是文生图技术的爆发年。在这一年里,各种先进的文生图模型纷纷涌现,如DALL-E 2、Stable Diffusion和Midjourney等。这些模型在图像生成质量、速度和多样性等方面都取得了显著突破。

         DALL-E 2是由OpenAI推出的一款强大的文生图工具,它可以根据用户输入的文本描述生成高质量的图像。Stable Diffusion则是一款基于扩散模型的文生图工具,它在生成速度和图像质量上都表现优异。Midjourney则是一款注重图像多样性的文生图工具,它可以根据用户输入的文本描述生成多种不同风格的图像。

         我个人在国内镜像网站试过Midjourney的文生图功能,对当时的我来说算是相当惊艳。能够按照自己的语言描述生成自己想要的图片和海报是多么超前的事情。

          这些先进的文生图模型不仅为我们带来了更加丰富的视觉体验,还在许多领域展现出了巨大的应用潜力。例如,在创意设计领域,设计师可以利用文生图技术快速生成多样化的设计方案;在娱乐产业,文生图技术可以为游戏、电影等提供丰富的视觉素材;在科研领域,文生图技术可以帮助研究人员可视化复杂的数据和模型。如图所示为大模型从诞生的历史演变,近几年发展相当迅速。

3.2024年文生图技术的发展趋势

          随着技术的不断进步和应用场景的不断拓展,文生图技术在2024年将继续迎来新的发展机遇。2024年6 月 13 日,Stability AI 发布了 Stable Diffusion 3 Medium(下文简称 SD3 Medium),官方声称是“迄今为止最先进的开源模型”,其性能甚至超过了 Midjourney 6。Stability AI 公司表示 SD3 Medium 可以根据用户输入的文本描述,重点克服了文生图模型中手部和脸部的挑战,生成足以乱真的的图像。

  1.           SD3 Medium 还利用其底层的 Diffusion Transformer 架构,高精度地整合了文字元素。SD3 Medium 的另一个特点是易于使用。相比较一些资源密集型 AI 模型,SD3 Medium 可以在消费级显卡上运行,可以加速普及适配。

          首先,文生图技术将更加注重图像的真实性和细节表现。通过引入更先进的生成对抗网络模型、扩散模型等技术手段,未来的文生图工具将能够生成更加逼真、细腻的图像,满足用户对高质量视觉内容的需求。

          其次,文生图技术将更加注重个性化和定制化。未来的文生图工具将能够根据用户的喜好、风格和需求,生成符合用户需求的个性化图像。这将为用户提供更加丰富的视觉体验和更多的创作可能。

          最后,文生图技术将更加注重跨模态生成。未来的文生图工具将不仅限于从文本到图像的映射,还将拓展到其他模态之间的转换,如从语音到图像、从视频到图像等。这将为文生图技术带来更多的应用场景和发展空间。

           这是我个人对文生图方面做的一些调研,做了一个简短的叙述。

二、文生图的基本知识与拓展

1. 什么是以文生图?

      以文生图是AIGC ( AI Generated Content )框架中的一个关键技术,通过文字描述,将文字转化为图像并展示出来。以文生图具有白动化程度高、精度高、可扩展性强、可定制化等优势,具有广泛的应用前景,可以为人们提供更便捷高效的绘图解决方案。

2. 文生图的功能

1>文字转图像:将输入的文字转化为图像效果 ,使文本更加生动。
2>图像定制:用户可以选择不用的颜色,字体,背景,作画风格等,定制自己喜欢的图像。

3. 文生圈大模型的原理是什么?

       如今,最火热的文本转图像横型主要是Compvis、Stability和LAION等公司研发的Stable diffusion模型,一个完全开源的模型( 代码,数据,模型全部开源)。

Stable diffusion模型是基于Latent Diffusion Models( 潜在扩散模型,LDMs)的文生图模型,在UNet中引入了text condition来实现基于文本生成图像的功能。Stable diffusion模型的主体结构如图1所示,主要包括三个模块:

(1)autoencoder :encoder将图像压缩到 latent空间,而 decoder将 latent解码为图像;

(2)CLP text encoder:该 CLIP的text encoder是一个 transformer模型,提取输入text的text embeddings, 通过 cross attention方式送入扩散模型 UNet中作为 condition;

(3)UNet:扩散横型的主体,用来实现文 本引导下的latent生成。

图1 :Stable diffusion模型主体结构 

如图2所示为对应的Stable diffusion模型网络结构图。

 图2:Stable diffusion模型网络结构图

根据上述模型结构图可以看出,Stable diffusion模型在生 成图片的过程中,主要包括两个输入一是提示词(prompt),二是种子(作用是生成噪声图),固定的种子和固定的分辦率生成的噪声图是固定的,模型以这个为基础进行图片生成。其中噪声图并不是一张图片,而是在潜在空间中的一种表示。为了便于理解,绘制为如图3所示的示意图。

预处理                                        潜空间

图3:图像生成过程 

4.如此强大的文生图模型,在日常生活与创意设计中拥有着无限可能。在科技发展快速的今天,相信在不远的将来就会衍生出非常强大的代替设计师的AI原画师、广告设计师等。                       

参考文章链接:https://blog.csdn.net/yamgyutou/article/details/131042881

三、文生图的步骤

         在SD模型的基础上,利用提示词(promts与负向promts)lora、ComfyUI参考图控制这些知识点来系统学习AIGC

         对于我个人理解,提示词语参考图的设置相当重要。有了提示词就相当于机器人有了电子控制系统与机械主题部件,参考图的设置就使得这个机器人去做更加细致的动作,所以生成的图片也更加美观和真实。

以下是本次夏令营Task01中以文生图的步骤:

1.通过指导手册,创建实例进入终端后,使用库安装代码花十分钟装好所需应用库,建立代码运行所需环境。

2.准备好环境,进行数据运行。下载数据集。

3.数据处理。

4.训练模型。完成模型训练后即可进行图片生成。这相当于是训练模型在雅正测试集。

5.加载模型后生成图像。

图像生成时,输入正向提示词与反向提示词。我的理解是:正向提示词是目标图像的框架,反向提示词是图像边界。既有框架又有边界,才能生成完美的图像。

6.花一段时间运行所用程序段,生成所需的图片。

生成的图片,大小高度都是统一的,且主题相同,属于组图形式。图片生成完成。八张图片各具特色与意境。

本次组图比赛的目标也是在比组图的美学分数(客观),以及主观评分的三个方面。一套好的作品,不仅要有技术含量,而且要有美学特色及整体美感。

生成原先图片以后,我根据我打篮球的喜好生成了一组篮球少年的照片。还是很不错。就是不能把我其在样貌的统一性和一些肤色和动作的细节。

四、不同文生图的应用与对比

以我手机的VIVO的蓝心大模型为例,用同样的关键词生成的图片。两种方式还是各有差别。希望后续能学习到更多知识,来实现更好的文生图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值