ComfyUI 完整入门:反推提示词的四种方法

在AI绘画中提示词是一个很重要的方面,有效的提示词才能生成期望的图像。提示词就像是图像的引路灯,往往一个词就有化腐朽为神奇的力量。关于提示词的重要性,这里就不多说了,用过的同学应该都知道。
在这里插入图片描述

这篇文章的主题是反推提示词。有时候我们看到一张图特别棒,想要模仿它的构图或者某些风格;又或者我们想要在重绘图像时保持图像的基本元素不变;再或者我们想要训练自己的模型,就需要给所有的训练图片打标。这些时候就需要反推提示词了。

最基本的反推方法是人力反推,我们根据自己的认识,参考图片内容,手动编写,不过大家的认识都是有限的,很多元素和风格可能不知道如何描述,即使能描述出来,还要翻译成英文,人力反推费时费力,最终出图效果也不一定好,可谓低质低效。因此本文并不是介绍人工反推提示词的方法。

本文介绍的都是通过AI模型反推提示词的方法,用到的AI绘画工具是ComfyUI,只需要上传一张图,就可以生成各种风格的高质量提示词。

如果你对提示词还是一知半解,缺少一个整体的认识,可以先看看我之前分享过一些提示词教程:

环境准备

本地手工部署

如果你本地有一个24G显存的Nvidia显卡,可以参考我这篇文章,在本地部署一个ComfyUI:

(需要相关模型插件的同学可自行扫描获取)

在这里插入图片描述

不过想要运行本文介绍的工作流,你还要安装缺失的插件节点、下载相关的模型,这个难度和工作量不容小视,建议仅对这一套比较熟悉的同学尝试。

ComfyUI在浏览器中启动后,我们可以先通过设置切换到中文界面,选择“中文”:

在这里插入图片描述

然后点击“加载”旁边的小箭头,选择一个“提示词”工作流,点击“添加提示词队列”,就可以开始愉快的生成了。

在这里插入图片描述

反推提示词的各种方法

目前在ComfyUI中我们可以使用多种提示词反推方法,这里将逐一介绍。

文末有模型和工作流的下载方式。

1、WD14 Tagger

WD14 Tagger 出来的比较早,Stable Diffusion WebUI 中也有这个插件,使用特别广泛,它会生成标签式的提示词。看下边工作流中使用红框圈出来的节点,只需要选择一个反推模型,设置提示词的阈值,就可以自动生成标签式的提示词,然后我们可以用这个提示词再去生成一张新的图片。

这个插件的完整名称是:ComfyUI-WD14-Tagger

在这里插入图片描述

2、CLIP询问机

CLIP询问机会生成偏自然语言风格的提示词,但是也会出现很多标签词,算是一个提示词的折中版本。

我是用的是 comfyui-mixlab-nodes 插件提供的,这个节点支持多种提示词模式:最快、经典、最好,还可以生成反向提示词。

在这里插入图片描述

3、JoyCaption

这个插件的完整名称是:Comfyui_CXH_joy_caption。

JoyCaption 内部提供了多个提示词反推方法,下图对比了使用 Min2_6、Joy_caption、Florence2反推提示词的效果。

在这里插入图片描述

对应生成的图像如下所示:

在这里插入图片描述

简单介绍下这几个提示词反推模型:

MIn2_6 使用的模型是:MiniCPMv2_6-prompt-generator,这是通过微调 MiniCPM-V 2.6 实现的,MiniCPM-V 2.6 是一个适用于图片和视频的多模态大语言模型。MiniCPMv2_6-prompt-generator在 2x 4090 24GB GPU上进行训练,并使用来自Midjourney的3000多个样本进行训练。该模型可以生成具有自然语言风格的短提示和长提示,可用于LORA训练时生成图像标签。使用整数量化版本可以降低GPU内存使用量(约7GB)。

Joy_caption 本身有一个自己的模型,这里搭配了Llama-3.1-8B的一个微调模型,应该是用来优化提示词的。

Florence2 使用的模型是:CogFlorence-2.2-Large,它是通过微调微软发布的 Florence-2-large 模型实现的。Florence-2-large是一个先进的视觉基础模型,可以解释简单的文本提示,执行如标注、对象检测和分割等任务。它学习了包含1.26亿张图像的54亿个注释。CogFlorence-2.2-Large 在4万张图像子集中进行了调优,可以生成自然语言风格的提示词,也可以生成传统标签风格的提示词,这对于支持两个CLIP文本编码器的Flux等模型特别有意义。

这几个里边,个人体感,Joy_caption的效果最好,其次是 Florence2、MIn2_6。

Joy_caption还支持批量打标,方便训练模型:

在这里插入图片描述

4、Miaoshouai-Tagger

这个插件也会使用上文提到的 Florence2 模型,使用的是 Florence-2-large-PromptGen-v1.5,,然后它可以同时输出两种格式提示词(caption_method选择mixed),搭配Flux,生成效果比较完美。演示效果如下图所示:

在这里插入图片描述

这个插件的完整名称是:ComfyUI-Miaoshouai-Tagger。它也支持批量达标,方便大家去训练模型。

在这里插入图片描述

个人认为,这个插件对原始参考图像的还原度是最高的。

中文提示词

考虑到很多同学书写英文比较费劲,这里额外介绍一个可以直接输入中文提示词的节点。

这个节点是 comfyui-mixlab-nodes 插件提供的,提示词允许输入中文,它会自动翻译,然后还可以根据我们的提示词进行自动优化,优化能力来源于大量用户使用的Midjourney提示词。

在这里插入图片描述

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述
在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值