三、图生图的使用

图生图

在先前的课程中,我们已经探索了文生图模型的基础知识,并且掌握了如何通过文字描述来生成图像。然而,AI绘画的奇妙之处远不止于此。在本讲义中,我们将拓展视野,深入学习图生图模型的运用。这种模型能够根据已有的图像生成新的艺术作品,它不仅能够复制和模仿(emm,实际效果可能略微地有些差),更能够在此基础上进行创新和变化。通过图生图模型,我们将学习如何将现有的视觉元素转化为全新的艺术表达,进一步丰富我们的创作手法,让我们的数字艺术创作更加多元和生动。

§ 1. 图生图的基本概念和参数 \S1.图生图的基本概念和参数 §1.图生图的基本概念和参数

我们打开图生图的基本页面,可以看到他明显地多了一个输入图像的图像框:
图生图

图生图指的即使输入图像和提示词,使AI生成一张新的图片。

这里输入图像可以比作给AI一幅参考图,让AI画图时有的放矢,可以通过上传和直接拖拽放入图片。同时,我们让然需要加入一些图生图的提示词,以更好的让AI了解我们要让它画出的东西。

在图生图的模型里,通过引入“重绘幅度”这一关键参数,允许我们精细调控AI绘画与原图的相似度。简单来说,重绘幅度越低,新图像与原图的相似度就越高,这就像是在原有画作上进行微妙的调整,既保留了原作的精髓,又赋予了它新的生命力,但是也不能太低,不然就直接是原图了。

同时,我们还需要关注另一个重要的参数——图像尺寸。在进行文生图创作时,我们可以通过图生图创作时,建议选择与原图大小成倍数关系的尺寸,这样可以更好地保持图像的细节和质量。然而,我们也要注意不要过于追求大尺寸,因为过大的图像可能会超出显存的限制,影响AI绘画的性能。

还有一个比较重要的参数就是随机种子,可以理解每一个种子都代表着不大相同的画风,我们如果对基础的随机种子不满意的话,我们还可以重新生成随机种子,直到生成我们想要的画风以后,我们可以把相应的随机种子保存起来,留待下次使用。

§ 2. 图片反推提示词 \S2.图片反推提示词 §2.图片反推提示词

提示词是为了给AI介绍更多的信息的,但是我们有时候并不能更好的描述图片本身,于是我们可以借用一些插件来生成我们描述图片的一些提示词。

看到webUI在文生图那一层的导航栏中,有一个叫做WD1.4标签器的插件,我们通过将图片拖拽或上传到里面,他就会提供给我们一些相对应的提示词,需要注意的是,这些提示词本身可能精准度上并不是多么好,如果最后的图片依旧不符合我们的需求,我们仍然需要对其再进行整改。

§ 3. 绘画实验 \S3.绘画实验 §3.绘画实验

图生图的基本知识介绍完了,我们就来到了经典的实验环节,通过实际操作,可以让我们更好的复习我们所学习过的知识。

这次实验主要的选题就是肖像画,让AI帮我们生成一幅动漫风格的人物图,要图生图绘画肖像图的话,首先我们要找到一幅原图:
一个男性

然后将其投喂给WD1.4,使其生成相应的提示词:

1boy,male focus,facial hair,solo,smile,beard,black hair,shirt,watch,crossed arms,realistic,blue shirt,grin,wristwatch,looking at viewer,t-shirt,upper body,

再加入一些正向提示词和反向提示词的模板:

(masterpiece:1.2), best quality,masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG: 1.2)
NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres,normal quality,((monochrome)),((grayscale)), skin spots, acnes,skin blemishes, age spot, (ugly:1.331), (duplicate:1.331),(morbid:1.21),(mutilated:1.21), (tranny:1.331), mutated hands,(poorty drawn hands:1.5), blury, (bad anatomy:1.21), (bad
proportions:1.331), extra limbs, (disfigured:1.331), (missingams:1.331),(extra legs:1.331), (fused fingers:1.61051),(too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands,missing fingers, extra digit,bad hands, missing fingers, (((extra ams and legs)))

将重绘幅度降低至0.6,我们便可以开始生成了。
肖像画

可以看到,虽然背景发生了较大的改变,但是确实绘画地还比较不错。

### 使用 LangGraph 实现文本转像生成 LangGraph 是一种用于增强 Agent 能力的核心模型,通过构建组件生态系统使得 Agent 可以更好地理解和处理复杂任务。虽然 LangGraph 主要关注于自然语言处理和记忆管理等方面[^3],但结合其他视觉生成技术和库,也可以实现从文本到像的转换。 为了完成这一过程,通常会涉及以下几个方面: #### 集成文本编码器与视觉生成模型 由于当前大多数视觉生成模型中的文本编码器主要适配的是上一代的语言模型[^1],因此首先需要确保所使用的文本编码器是最新的,并能有效地捕捉输入文本的意义。接着,将此编码后的向量传递给专门设计用来创建像的神经网络结构,比如 GANs 或 Diffusion Models。 #### 利用现有API服务 考虑到实际应用的需求,可以直接调用一些成熟的第方 API 来简化开发流程。例如 StableDiffusion 提供了高质量的文字转片的服务接口;DALL-E 也拥有出色的性能表现。对于企业级应用场景,则可以通过 Dust.tt 这样的平台来集成 CRM 和项目管理系统等资源,从而更高效地获取所需数据并驱动像生成的过程。 #### 示例代码展示 下面给出一段 Python 伪代码作为概念验证,说明如何使用假设存在的 `langgraph` 库配合某个假定的支持文字转象功能的服务来进行简单的尝试: ```python import langgraph as lg from some_image_api import TextToImageClient def generate_image_from_text(text_description, api_key): client = TextToImageClient(api_key=api_key) # Use LangGraph to process and understand the text input. processed_input = lg.process_text(text_description) # Pass the processed result into an image generation service. img_url = client.generate(processed_input) return img_url if __name__ == "__main__": description = "A beautiful sunset over mountains" key = "<your-api-key>" url = generate_image_from_text(description, key) print(f"Generated Image URL: {url}") ``` 这段代码展示了如何先利用 LangGraph 对输入文本进行预处理,然后再将其发送至支持文本转像功能的服务端点处获得最终的结果链接。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值