Florence2:使用LLM助力你的AI绘图,仅需一个模型搞定提示反推&对象检查&蒙版识别&文字识别&咨询建议多功能一体

大家好我是阿道夫!!!

Florence2是一款革命性的AI绘图工具,它将LLM(大型语言模型)的强大功能与AI绘图技术完美结合。本文将介绍Florence2的五大核心功能:提示反推、对象检查、蒙版识别、文字识别及咨询建议,以及如何使用一个模型轻松搞定这些功能,助力您的AI绘图创作。
在这里插入图片描述

在LLM大语言模型快速发展下,视觉大模型已成为主流,能够精准的识别图片信息检查图片对象提取文字等,甚至可以根据输入图像实现代码编程咨询建议物理世界识别等,模拟现实世界物理运动反馈和回应。同时以SD、MJ为首的绘图模型在扩散模型(包括近期 的的DiT架构) 下也得到的快速的发展,模仿垫图一直是绘图过程中重要需求之一。大家常用的提示词反推工具有:ComfyUI-WD14-Tagger,但它并不是非常的精准。今天的主题则是使用微软发布的Florence2视觉大模型集成ComfyUI助力AI绘图。当然它不止提示词反推,还包括:对象检查、蒙版识别、OCR文字识别、文档视觉问题解答等。

Florence-2是一个微软发布的高级视觉基础模型,它采用基于提示的方法来处理广泛的视觉和视觉-语言任务。Florence-2 可以解释简单的文本提示,执行如字幕、目标检测和分割等任务。它利用FLD-5B 数据集训练,包含 5.4 亿个注释跨足 1260 万张图像,以精通多任务学习。该模型的序列到序列架构使其在零样本和微调设置中都表现出色,试验结果证明了Florence-2 是一个具有竞争力的视觉基础模型。

Florence-2具有多版本发布。其中base和base-ft体积小(约400MB)适合低显存用户 ,large和large-fit 体积大(约1G)更精准智能

Florence-2模型ComfyUI体验

首选ComfyUI中利用插件管理器搜索ComfyUI-Florence2, 并点击安装,此插件无需安装任何模型,在首次运行时会自动下载。重启ComfyUI既可开始体验。

• ComfyUI插件:(需要的同学可以自行扫描获取)
在这里插入图片描述

/ComfyUI/models/LLM/Florence-2-base-ft 目录下。如无法自动下载可以使用git lfs clone下载(切记CD到正确目录):

01. 工作流界面

插件中最终的选项是Task任务选项,一共包含11个任务

  1. region_caption:简单的对象检测,识别图像中的基本元素。对象检测标记。

  2. dense_region_caption:更详细的对象检测,提供更丰富的描述。

  3. region_proposal:纯粹的区域识别,没有语义描述。

  4. caption:对图片进行简单描述,反推提示词。

  5. detailed_caption:提供更详细的图像描述。

  6. more_detailed_caption:进一步增加图像描述的细节。适合适用于图像提示词反推

  7. caption_to_phrase_grounding:将图像描述与短语关联起来。

  8. referring_expression_segmentation:根据指示性表达分割图像。图像预期分隔制作蒙版。

    1. Ocr:识别图像中的文本。
    1. ocr_with_region:结合区域信息的文本识别。
    1. docvqa:文档问答咨询。图像识别建议方案。

01. 对象检测

明确的识别出图中:脸、衣服、花、人物。并提供了对象检测位置描述。dense_region_caption包含更详细的描述,region_proposal不包含描述,但具有更多的对象识别。

在这里插入图片描述

02.提示词反推

都具有图像描述提示词反推描述,而more_detailed_caption则提示语更详细,识别绘图提示词反推,替代ComfyUI-WD14-Taggercaption:

A woman in a red cheongsam standing in a room.

detailed_caption

In this image we can see a woman. In the background there is a wall.

more_detailed_caption

A woman is wearing a red dress with white flowers on it. The woman has dark brown hair and is smiling. There is a mirror behind the woman. 
03. 语义分隔,蒙版制作

caption_to_phrase_grounding仅标记语义识别圈选对象,标记区域。caption_to_phrase_grounding则会圈选并生成蒙版。

在这里插入图片描述

04. 文字识别

Ocr仅识别了文字,ocr_with_region还输出了图像区域标记。不支持中文,应该缺少中文数据的微调。

05. 文档咨询

注意切换模型Florence-2-DocVQA。这属于小模型,当前识别能力还很弱,无法与GPT4O等视觉大模型类比。

Florence-2模型提示词反推实战

本文涉及模型下载地址:(可自行扫描获取)
在这里插入图片描述

• 麻袋realistic_XL

• 东方审美 | BRairt.SDXLLORA

• 真实皮肤

• HandFineTuning_XL-修手LORA

绘图负向提示词

(nsfw:1.5),(worst quality, low quality:2),(Watermark:1.5),(NSFW:2),ng_deepnegative_v1_75t,EasyNegative,badhandv4,NSFW,(nsfw:1.3),render,childlike,text,signature,(worst quality, low quality, very displeasing, lowres),(interlocked fingers, badly drawn hands and fingers, anatomically incorrect hands),blurry,watermark,

01. 工作流界面

01. 提示词反推实战

反推提示词

(closed mouth:1.5),(indoor),(chinese dress), A woman is standing in a room. She is wearing a red dress with white flowers on it. The woman has dark hair and is smiling. There are flowers on the wall behind the woman.

输入效果

在这里插入图片描述

这里并未使用相同的模型绘图,因此仍存在模型的差异性。选择相似的模型将会更好的解决仿图。

资料软件免费放送

次日同一发放请耐心等待

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

需要的可以扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

**一、AIGC所有方向的学习路线**

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

  • 8
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值