[ComfyUI]Flux+MiniCPM-V强强联手艺术创意,媲美GPT4V级国产多模态视觉大模型

前言

Flux+MiniCPM-V强强联手艺术创意,媲美GPT4V级国产多模态视觉大模型

🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !

今天文章主题将为大家介绍一款最新的国产多模态视觉大模型:MiniCPM-V,在本文中将使用该视觉大模型实现提示词反推,并结合当下最火的文生图黑马模型:Flux直出,完成更精准的图像反推提示词与AIGC绘画。

所有的AI设计工具,模型和插件,都已经整理好了,👇获取~在这里插入图片描述

MiniCPM-V模型简介

MiniCPM-V是一款官方称能够媲美GPT4V级的国产多模态视觉大模型MiniCPM-V是面向图文理解的端侧多模态大模型系列。模型能够接受图像和文本输入,并提供高质量的文本输出。该系列模型中,最新版本是MiniCPM-V 2.6,也是其中最新、具有最佳性能的模型。

  • • 模型总参数量 8B,能够实现单图、多图和视频理解性能超越了 GPT-4V

  • • 在单图理解上,它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现,并进一步优化了MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。

  • • 基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。

MiniCPM-V模型优势

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400MQwen2-7B 构建,共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比,MiniCPM-V 2.6 性能提升显著,并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括:

  • 领先的性能。 MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型

  • 多图理解和上下文学习。 MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平,并展现出了优秀的上下文学习能力。

  • 视频理解。 MiniCPM-V 2.6 还可以接受视频输入,进行对话和提供涵盖时序和空间信息的详细视频描述。模型在 有/无字幕 评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。

  • 强大的 OCR 能力及其他功能。 MiniCPM-V 2.6 可以处理任意长宽比的图像,像素数可达 180 万(如 1344x1344)。在 OCRBench 上取得最佳水平,超过 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等商用闭源模型。基于最新的 RLAIF-V和 VisCPM技术,其具备了可信的多模态行为,在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言

  • 卓越的效率:除了对个人用户友好的模型大小,MiniCPM-V 2.6 还表现出 最先进的视觉 token 密度(即每个视觉 token 编码的像素数量)。它仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此,MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解

  • 易于使用:MiniCPM-V 2.6 支持通过多种方式轻松使用:llama.cpp、ollama、GGUF、Gradio WebUI等。

MiniCPM-V模型性能评估

MiniCPM-V模型+Flux体验

当前社区已有ComfyUI插件支持:ComfyUI_MiniCPM-V-2_6-int4,可以通过插件管理器搜索ComfyUI_MiniCPM-V-2_6-int4并安装对应的插件。该插件无需手动下载模型,便可直接进入体验。模型会在首次运行时候自动下载,并放置在目录**\ComfyUI\models\prompt_generator**下。

图像反推提示词



The detailed content in the diagram is required to be described in English language natural language format.


视频反推提示词



The detailed content in the video is required to be described in English language natural language format.


注意:在工作流文生图增加前缀提示词:chinese people, 20-old-years, chinese style,

01. 单图反推

从提示词中还原了全部细节包括图中爱情十周年文字。



`The image captures a romantic moment between two individuals standing in front of a round table set for an intimate celebration. The setting appears to be a restaurant or banquet hall, characterized by warm lighting and elegant decor. A red lantern hangs from the ceiling, adding to the ambiance. Both individuals are dressed formally; one wears a dark suit with a bow tie, while the other is in a vibrant red dress adorned with floral accents. They hold glasses of what looks like champagne, suggesting a toast. In the background, another person stands near the window, possibly a photographer capturing the event. The text "Love Tenth Anniversary" overlays the bottom right corner, indicating that this scene commemorates a decade-long anniversary.`

`   `

`这张照片捕捉到了两个人站在圆桌前的浪漫时刻,圆桌是为亲密的庆祝活动而准备的。场景似乎是餐厅或宴会厅,以温暖的灯光和优雅的装饰为特色。一盏红灯笼悬挂在天花板上,增添了氛围。两个人都穿着正式的服装;一个穿着深色西装,戴着领结,另一个穿着饰有花卉的鲜红色连衣裙。他们手里拿着看起来像香槟酒的酒杯,暗示着要干杯。在背景中,另一个人站在窗户附近,可能是拍摄这一事件的摄影师。右下角覆盖着“爱情十周年”的文字,表明这个场景是为了纪念十年的周年纪念日。`


02. 多图反推

从提示词中还原了大部分细节。

`The video depicts two animated characters in a romantic setting, transitioning from one scene to another. In the first frame, the male character is dressed in a white shirt and dark pants with sneakers, while the female character wears a red top and a black skirt paired with high heels. They are standing close together, facing each other with smiles on their faces, suggesting a moment of affection or intimacy.   `

视频中,两个动画人物身处浪漫的场景中,从一个场景过渡到另一个场景。第一帧中,男角色身着白色衬衫和深色裤子,脚踩运动鞋,女角色身着红色上衣和黑色裙子,脚踩高跟鞋。他们站在一起,面带微笑,仿佛是亲密的瞬间。


03. 视频反推

还原了视频中全部细节,只是将老虎识别为雕塑非真实动物,实际使用中可以通过简单提示词修正即可

`The video showcases a small figurine of a tiger cub being held between the thumb and index finger of an unseen person. The figurine is highly detailed, with realistic features such as stripes, fur texture, and facial expressions that give it lifelike qualities. It appears to be made from a material that mimics the look and feel of real tiger skin, with vibrant orange hues and black stripes accentuating its feline appearance. Throughout the sequence, there is no significant change in the positioning or orientation of the figurine; it remains centered and well-lit against a blurred greenish-brown background, which suggests a natural outdoor setting. The focus stays sharp on the figurine, while the background retains a consistent softness, emphasizing the miniature's delicate details and craftsmanship.   `

视频中,一名看不见的人用拇指和食指夹着一只小虎崽。小雕像细节丰富,条纹、毛皮纹理和面部表情等逼真特征赋予它栩栩如生的特质。它似乎是用一种模仿真虎皮外观和触感的材料制成的,鲜艳的橙色色调和黑色条纹突出了它的猫科动物外观。在整个过程中,小雕像的位置或方向没有明显变化;它始终位于中心,在模糊的绿褐色背景下光线充足,这暗示着自然的户外环境。焦点始终集中在小雕像上,而背景则保持一致的柔和度,强调了微缩模型的精致细节和工艺。


04. 疯狂少年

识别了图中大部分细节,包括头巾等,动物颜色未描述。

`The image depicts a young child with spiky hair, wearing an orange jacket and a headband with a symbol on it, riding atop a large frog. The setting appears to be a bustling street in a traditional East Asian village, characterized by wooden buildings, lanterns, and various market stalls. The atmosphere is lively, with people engaging in daily activities around the child and the frog. The visual style suggests a blend of fantasy and realism, creating a whimsical yet grounded scene.   `

这幅画描绘了一个头发尖尖的小孩,穿着橙色夹克,头上戴着一个带有符号的头带,骑在一只大青蛙上。场景似乎是传统东亚村庄的一条繁华街道,以木制建筑、灯笼和各种市场摊位为特色。气氛很热闹,人们围绕着孩子和青蛙进行日常活动。视觉风格融合了幻想和现实主义,创造了一个异想天开但又脚踏实地的场景。


05. 荡秋千

识别了图中大部分核心细节,包括秋千、头环等,还需增加光影识别提示词。

`The image captures a serene and picturesque moment in a lush forest, where the play of sunlight filtering through the dense foliage creates a dappled light effect on the scene. A woman is seated on a rustic swing that appears to be made from wooden planks and is adorned with green vines and yellow flowers, adding a touch of whimsy and natural beauty. The swing is suspended by sturdy ropes or cables, suggesting it's designed for leisurely enjoyment rather than practical transportation. The woman is dressed in a casual, summery outfit consisting of a beige sleeveless top and a light-colored skirt, which complements the overall relaxed and carefree atmosphere of the setting. Her hair is styled in loose waves, and she wears a floral headband that matches the decorations on the swing, further enhancing the harmonious blend with nature. Her posture is relaxed; her legs are crossed at the ankles, and she gazes off to the side with an expression that could be interpreted as contemplative or lost in thought. This gives the impression of a tranquil escape into the woods, away from the hustle and bustle of daily life. The background is filled with verdant greenery, indicating a healthy, thriving ecosystem. The interplay of light and shadow creates a sense of depth and dimension, making the viewer feel as though they are stepping into this idyllic setting themselves. Overall, the composition exudes a sense of peace, harmony, and connection with nature.`

这张照片捕捉到了茂密森林中宁静而美丽的瞬间,阳光透过茂密的树叶照射下来,在场景中形成斑驳的光影效果。一名女子坐在一个质朴的秋千上,秋千似乎是用木板做成的,上面装饰着绿色的藤蔓和黄色的花朵,增添了一丝奇思妙想和自然之美。秋千由坚固的绳索或电缆悬挂,表明它是为休闲娱乐而设计的,而不是实用的交通工具。这名女子穿着休闲的夏装,包括一件米色无袖上衣和一条浅色裙子,与整个场景轻松无忧的氛围相得益彰。她的头发是蓬松的波浪形,戴着一条与秋千上的装饰相配的花头带,进一步增强了与自然的和谐融合。她的姿势很放松;她的双腿在脚踝处交叉,她凝视着一边,表情可能被解读为沉思或陷入沉思。这给人一种远离日常生活喧嚣、宁静地躲进树林的感觉。背景是翠绿的绿色植物,表明生态系统健康、繁荣。光与影的相互作用创造了一种深度和维度感,让观众感觉自己仿佛走进了这个田园诗般的环境。总的来说,这幅作品散发出一种和平、和谐和与自然联系的感觉。



这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。

有需要的朋友,可以点击下方免费领取!

在这里插入图片描述

AIGC所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
在这里插入图片描述

AIGC工具库

AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
在这里插入图片描述

有需要的朋友,可以点击下方卡片免费领取!

在这里插入图片描述

精品AIGC学习书籍手册

书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。

在这里插入图片描述

AI绘画视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。

在这里插入图片描述

  • 20
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值