Florence2:使用LLM助力你的AI绘图，仅需一个模型搞定提示反推&对象检查&蒙版识别&文字识别&咨询建议多功能一体

AIGC阿道夫

已于 2025-03-06 10:31:49 修改

阅读量3.9k

点赞数 16

文章标签：人工智能 stable diffusion AI作画 ai绘画 aigc 人工智能作画 ai

于 2024-08-01 14:54:13 首次发布

本文链接：https://blog.csdn.net/text2203/article/details/140847576

版权

大家好我是阿道夫！！！

Florence2是一款革命性的AI绘图工具，它将LLM（大型语言模型）的强大功能与AI绘图技术完美结合。本文将介绍Florence2的五大核心功能：提示反推、对象检查、蒙版识别、文字识别及咨询建议，以及如何使用一个模型轻松搞定这些功能，助力您的AI绘图创作。
在这里插入图片描述

在LLM大语言模型快速发展下，视觉大模型已成为主流，能够精准的识别图片信息、检查图片对象、提取文字等，甚至可以根据输入图像实现代码编程、咨询建议、物理世界识别等，模拟现实世界物理运动反馈和回应。同时以SD、MJ为首的绘图模型在扩散模型（包括近期的的DiT架构） 下也得到的快速的发展，模仿垫图一直是绘图过程中重要需求之一。大家常用的提示词反推工具有：ComfyUI-WD14-Tagger，但它并不是非常的精准。今天的主题则是使用微软发布的Florence2视觉大模型集成ComfyUI助力AI绘图。当然它不止提示词反推，还包括：对象检查、蒙版识别、OCR文字识别、文档视觉问题解答等。

Florence-2是一个微软发布的高级视觉基础模型，它采用基于提示的方法来处理广泛的视觉和视觉-语言任务。Florence-2 可以解释简单的文本提示，执行如字幕、目标检测和分割等任务。它利用FLD-5B 数据集训练，包含 5.4 亿个注释跨足 1260 万张图像，以精通多任务学习。该模型的序列到序列架构使其在零样本和微调设置中都表现出色，试验结果证明了Florence-2 是一个具有竞争力的视觉基础模型。

Florence-2具有多版本发布。其中base和base-ft体积小（约400MB）适合低显存用户，large和large-fit 体积大（约1G）更精准智能。

Florence-2模型ComfyUI体验

首选ComfyUI中利用插件管理器搜索ComfyUI-Florence2，并点击安装，此插件无需安装任何模型，在首次运行时会自动下载。重启ComfyUI既可开始体验。

• ComfyUI插件：(需要的同学可以自行扫描获取)
请添加图片描述

/ComfyUI/models/LLM/Florence-2-base-ft 目录下。如无法自动下载可以使用git lfs clone下载（切记CD到正确目录）：

01. 工作流界面

插件中最终的选项是Task任务选项，一共包含11个任务：

region_caption：简单的对象检测，识别图像中的基本元素。对象检测标记。
dense_region_caption：更详细的对象检测，提供更丰富的描述。
region_proposal：纯粹的区域识别，没有语义描述。
caption：对图片进行简单描述，反推提示词。
detailed_caption：提供更详细的图像描述。
more_detailed_caption：进一步增加图像描述的细节。适合适用于图像提示词反推。
caption_to_phrase_grounding：将图像描述与短语关联起来。
referring_expression_segmentation：根据指示性表达分割图像。图像预期分隔制作蒙版。
1. Ocr：识别图像中的文本。
1. ocr_with_region：结合区域信息的文本识别。
1. docvqa：文档问答咨询。图像识别建议方案。

01. 对象检测

明确的识别出图中：脸、衣服、花、人物。并提供了对象检测位置描述。dense_region_caption包含更详细的描述，region_proposal不包含描述，但具有更多的对象识别。

在这里插入图片描述

02.提示词反推

都具有图像描述提示词反推描述，而more_detailed_caption则提示语更详细，识别绘图提示词反推，替代ComfyUI-WD14-Tagger。caption：

A woman in a red cheongsam standing in a room.

detailed_caption：

In this image we can see a woman. In the background there is a wall.

more_detailed_caption：

A woman is wearing a red dress with white flowers on it. The woman has dark brown hair and is smiling. There is a mirror behind the woman.

03. 语义分隔，蒙版制作

caption_to_phrase_grounding仅标记语义识别圈选对象，标记区域。caption_to_phrase_grounding则会圈选并生成蒙版。

在这里插入图片描述

04. 文字识别

Ocr仅识别了文字，ocr_with_region还输出了图像区域标记。不支持中文，应该缺少中文数据的微调。

05. 文档咨询

注意切换模型Florence-2-DocVQA。这属于小模型，当前识别能力还很弱，无法与GPT4O等视觉大模型类比。

Florence-2模型提示词反推实战

本文涉及模型下载地址：（可自行扫描获取）
请添加图片描述

• 麻袋realistic_XL

• 东方审美 | BRairt.SDXLLORA

• 真实皮肤

• HandFineTuning_XL-修手LORA

绘图负向提示词：

(nsfw:1.5),(worst quality, low quality:2),(Watermark:1.5),(NSFW:2),ng_deepnegative_v1_75t,EasyNegative,badhandv4,NSFW,(nsfw:1.3),render,childlike,text,signature,(worst quality, low quality, very displeasing, lowres),(interlocked fingers, badly drawn hands and fingers, anatomically incorrect hands),blurry,watermark,

01. 工作流界面

01. 提示词反推实战

反推提示词：

(closed mouth:1.5),(indoor),(chinese dress), A woman is standing in a room. She is wearing a red dress with white flowers on it. The woman has dark hair and is smiling. There are flowers on the wall behind the woman.

输入效果：

在这里插入图片描述