[ComfyUI]Flux+MiniCPM-V强强联手艺术创意,媲美GPT4V级国产多模态视觉大模型

在数字艺术领域,AI绘画技术已经逐渐成为艺术创作的新趋势。ComfyUI作为一款优秀的AI绘画工具,现在与Flux+MiniCPM-V强强联手,推出了媲美GPT4V级国产多模态视觉大模型。现在,让我们一起来探索这个强大的组合,开启你的创意之旅

今天文章主题将为大家介绍一款最新的国产多模态视觉大模型:MiniCPM-V,在本文中将使用该视觉大模型实现提示词反推,并结合当下最火的文生图黑马模型:Flux直出,完成更精准的图像反推提示词与AIGC绘画。

MiniCPM-V模型简介

MiniCPM-V是一款官方称能够媲美GPT4V级的国产多模态视觉大模型MiniCPM-V是面向图文理解的端侧多模态大模型系列。模型能够接受图像和文本输入,并提供高质量的文本输出。该系列模型中,最新版本是MiniCPM-V 2.6,也是其中最新、具有最佳性能的模型。

  • • 模型总参数量 8B,能够实现单图、多图和视频理解性能超越了 GPT-4V

  • • 在单图理解上,它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现,并进一步优化了MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。

  • • 基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。

(需要的同学可以自行扫描获取)
在这里插入图片描述

MiniCPM-V模型优势

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400MQwen2-7B 构建,共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比,MiniCPM-V 2.6 性能提升显著,并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括:

  • 领先的性能。 MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型

  • 多图理解和上下文学习。 MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平,并展现出了优秀的上下文学习能力。

  • 视频理解。 MiniCPM-V 2.6 还可以接受视频输入,进行对话和提供涵盖时序和空间信息的详细视频描述。模型在 有/无字幕 评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。

  • 强大的 OCR 能力及其他功能。 MiniCPM-V 2.6 可以处理任意长宽比的图像,像素数可达 180 万(如 1344x1344)。在 OCRBench 上取得最佳水平,超过 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等商用闭源模型。基于最新的 RLAIF-V和 VisCPM技术,其具备了可信的多模态行为,在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言

  • 卓越的效率:除了对个人用户友好的模型大小,MiniCPM-V 2.6 还表现出 最先进的视觉 token 密度(即每个视觉 token 编码的像素数量)。它仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此,MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解

  • 易于使用:MiniCPM-V 2.6 支持通过多种方式轻松使用:llama.cpp、ollama、GGUF、Gradio WebUI等。

MiniCPM-V模型性能评估

MiniCPM-V模型+Flux体验

当前社区已有ComfyUI插件支持:ComfyUI_MiniCPM-V-2_6-int4,可以通过插件管理器搜索ComfyUI_MiniCPM-V-2_6-int4并安装对应的插件。该插件无需手动下载模型,便可直接进入体验。模型会在首次运行时候自动下载,并放置在目录**\ComfyUI\models\prompt_generator**下。

如遇见模型无法下载可使用git下载:

git lfs clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4

MiniCPM-V+Flux文生图工作流

该工作流已上传LIBLIB平台,工作流地址可以自行扫描获取

图像反推提示词

The detailed content in the diagram is required to be described in English language natural language format.

视频反推提示词

The detailed content in the video is required to be described in English language natural language format.

注意:在工作流文生图增加前缀提示词:chinese people, 20-old-years, chinese style,

01. 单图反推

从提示词中还原了全部细节包括图中爱情十周年文字。

The image captures a romantic moment between two individuals standing in front of a round table set for an intimate celebration. The setting appears to be a restaurant or banquet hall, characterized by warm lighting and elegant decor. A red lantern hangs from the ceiling, adding to the ambiance. Both individuals are dressed formally; one wears a dark suit with a bow tie, while the other is in a vibrant red dress adorned with floral accents. They hold glasses of what looks like champagne, suggesting a toast. In the background, another person stands near the window, possibly a photographer capturing the event. The text "Love Tenth Anniversary" overlays the bottom right corner, indicating that this scene commemorates a decade-long anniversary.

这张照片捕捉到了两个人站在圆桌前的浪漫时刻,圆桌是为亲密的庆祝活动而准备的。场景似乎是餐厅或宴会厅,以温暖的灯光和优雅的装饰为特色。一盏红灯笼悬挂在天花板上,增添了氛围。两个人都穿着正式的服装;一个穿着深色西装,戴着领结,另一个穿着饰有花卉的鲜红色连衣裙。他们手里拿着看起来像香槟酒的酒杯,暗示着要干杯。在背景中,另一个人站在窗户附近,可能是拍摄这一事件的摄影师。右下角覆盖着“爱情十周年”的文字,表明这个场景是为了纪念十年的周年纪念日。

02. 多图反推

从提示词中还原了大部分细节。

The video depicts two animated characters in a romantic setting, transitioning from one scene to another. In the first frame, the male character is dressed in a white shirt and dark pants with sneakers, while the female character wears a red top and a black skirt paired with high heels. They are standing close together, facing each other with smiles on their faces, suggesting a moment of affection or intimacy.

视频中,两个动画人物身处浪漫的场景中,从一个场景过渡到另一个场景。第一帧中,男角色身着白色衬衫和深色裤子,脚踩运动鞋,女角色身着红色上衣和黑色裙子,脚踩高跟鞋。他们站在一起,面带微笑,仿佛是亲密的瞬间。

03. 视频反推

还原了视频中全部细节,只是将老虎识别为雕塑非真实动物,实际使用中可以通过简单提示词修正即可

The video showcases a small figurine of a tiger cub being held between the thumb and index finger of an unseen person. The figurine is highly detailed, with realistic features such as stripes, fur texture, and facial expressions that give it lifelike qualities. It appears to be made from a material that mimics the look and feel of real tiger skin, with vibrant orange hues and black stripes accentuating its feline appearance. Throughout the sequence, there is no significant change in the positioning or orientation of the figurine; it remains centered and well-lit against a blurred greenish-brown background, which suggests a natural outdoor setting. The focus stays sharp on the figurine, while the background retains a consistent softness, emphasizing the miniature's delicate details and craftsmanship.

视频中,一名看不见的人用拇指和食指夹着一只小虎崽。小雕像细节丰富,条纹、毛皮纹理和面部表情等逼真特征赋予它栩栩如生的特质。它似乎是用一种模仿真虎皮外观和触感的材料制成的,鲜艳的橙色色调和黑色条纹突出了它的猫科动物外观。在整个过程中,小雕像的位置或方向没有明显变化;它始终位于中心,在模糊的绿褐色背景下光线充足,这暗示着自然的户外环境。焦点始终集中在小雕像上,而背景则保持一致的柔和度,强调了微缩模型的精致细节和工艺。

04. 疯狂少年

识别了图中大部分细节,包括头巾等,动物颜色未描述。

The image depicts a young child with spiky hair, wearing an orange jacket and a headband with a symbol on it, riding atop a large frog. The setting appears to be a bustling street in a traditional East Asian village, characterized by wooden buildings, lanterns, and various market stalls. The atmosphere is lively, with people engaging in daily activities around the child and the frog. The visual style suggests a blend of fantasy and realism, creating a whimsical yet grounded scene.

这幅画描绘了一个头发尖尖的小孩,穿着橙色夹克,头上戴着一个带有符号的头带,骑在一只大青蛙上。场景似乎是传统东亚村庄的一条繁华街道,以木制建筑、灯笼和各种市场摊位为特色。气氛很热闹,人们围绕着孩子和青蛙进行日常活动。视觉风格融合了幻想和现实主义,创造了一个异想天开但又脚踏实地的场景。

05. 荡秋千

识别了图中大部分核心细节,包括秋千、头环等,还需增加光影识别提示词。

The image captures a serene and picturesque moment in a lush forest, where the play of sunlight filtering through the dense foliage creates a dappled light effect on the scene. A woman is seated on a rustic swing that appears to be made from wooden planks and is adorned with green vines and yellow flowers, adding a touch of whimsy and natural beauty. The swing is suspended by sturdy ropes or cables, suggesting it's designed for leisurely enjoyment rather than practical transportation. The woman is dressed in a casual, summery outfit consisting of a beige sleeveless top and a light-colored skirt, which complements the overall relaxed and carefree atmosphere of the setting. Her hair is styled in loose waves, and she wears a floral headband that matches the decorations on the swing, further enhancing the harmonious blend with nature. Her posture is relaxed; her legs are crossed at the ankles, and she gazes off to the side with an expression that could be interpreted as contemplative or lost in thought. This gives the impression of a tranquil escape into the woods, away from the hustle and bustle of daily life. The background is filled with verdant greenery, indicating a healthy, thriving ecosystem. The interplay of light and shadow creates a sense of depth and dimension, making the viewer feel as though they are stepping into this idyllic setting themselves. Overall, the composition exudes a sense of peace, harmony, and connection with nature.

这张照片捕捉到了茂密森林中宁静而美丽的瞬间,阳光透过茂密的树叶照射下来,在场景中形成斑驳的光影效果。一名女子坐在一个质朴的秋千上,秋千似乎是用木板做成的,上面装饰着绿色的藤蔓和黄色的花朵,增添了一丝奇思妙想和自然之美。秋千由坚固的绳索或电缆悬挂,表明它是为休闲娱乐而设计的,而不是实用的交通工具。这名女子穿着休闲的夏装,包括一件米色无袖上衣和一条浅色裙子,与整个场景轻松无忧的氛围相得益彰。她的头发是蓬松的波浪形,戴着一条与秋千上的装饰相配的花头带,进一步增强了与自然的和谐融合。她的姿势很放松;她的双腿在脚踝处交叉,她凝视着一边,表情可能被解读为沉思或陷入沉思。这给人一种远离日常生活喧嚣、宁静地躲进树林的感觉。背景是翠绿的绿色植物,表明生态系统健康、繁荣。光与影的相互作用创造了一种深度和维度感,让观众感觉自己仿佛走进了这个田园诗般的环境。总的来说,这幅作品散发出一种和平、和谐和与自然联系的感觉。

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述
在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值