如何融合多张图片的概念?#MiniCPM-V2.6

可能很多人会想到用图像提示:IPA的方式,但今天要讲的是用MiniCPM,理解多张图片,写成文本提示。

MiniCPM-V 2.6是面壁智能发布的多模态大模型,它在 SigLip-400M 和 Qwen2-7B 的架构基础上进行了改进,增强了处理单张图像、多张图像和视频输入的能力。

多图联合理解

使用mixlab里的MiniCPM得到的提示词,输入flux生成。

afd01883069e15045e95ffc28417757c.png

在小显存的电脑上需要注意输入的图片尺寸。所以,我添加了个resize进行缩放。

Prompt:创作一个故事

在一间光线充足的画室里,一个艺术家坐在一张木桌前。他们穿着一件橙色的衬衫,头发上戴着一台复古电视作为头饰,正在创作一幅著名星空画作的复制品。桌子上放着一只带有“MIX-LAB”字样的马克杯和一部智能手机。随着画家继续工作,他们的思绪被带到另一个维度。这幅视频中展示了一个数字艺术作品,描绘了一位年轻女子站在一个色彩斑斓、抽象的背景前。她的表情宁静而思考,仿佛在反思自己的内心世界或创作过程本身。这个场景暗示了数字和现实之间的交汇,也许是在探索艺术的界限和潜力。

先无脑的把这个提示词,输入给flux,看看效果:

b384892ebfa1fec97da3c689201cb698.png

40449072a3e2bc4907d643aa0c33f597.png

修改下提示工程:

Prompt:创作一个故事的分镜头,输出每个镜头的描述

视频开始于一个坐在桌子前的个人,头戴一台复古计算机显示器,仿佛代替了他们的头部。桌子上有一杯印有“MIX-LAB”字样的马克杯和一幅著名星夜油画的复制品。环境暗示了一个家庭办公室或工作室的场景,背景是一面简单的墙壁和一扇门。

接着,画面切换到一个人物的特写,这个人物有着波浪卷曲的头发和柔和的表情。他们似乎处于一个充满活力的环境中,可能是一个艺术工作室,因为背景中可以看到画笔和调色板。光线温暖,营造出一种创意和灵感的氛围。

最后,镜头拉远,揭示出之前的场景是更大故事的一部分。现在,我们看到那个人物站在一个色彩斑斓的艺术作品旁边,可能在思考或者准备创作。整个视频的分镜头展示了从个人的工作空间到充满活力的创造力的转变,暗示着一个关于艺术、技术和自我表达的故事。

1e911f77eabcf95e964f63c3e8b9f899.png

c0b5f0d59772ddf5f81104be9a2eca91.png

3728456dd47d6762a6f12e98379f5964.jpeg

4d250176f9f7c0bc1fc075b4732c5620.jpeg

be0980265b1f92b762bc2a6a3d3b6a52.jpeg

再修改下

Prompt:创作一个故事的分镜头,输出每个镜头的描述,按照json格式输出

{

  "镜头1": {

    "描述": "一个坐在办公桌前的男子,头戴复古风格的电脑显示器作为头部。他穿着橙色衬衫,面前放着一幅梵高的《星夜》复制品和一杯印有'MIX-LAB'字样的马克杯。"

  },

  "镜头2": {

    "描述": "女子站在画架旁,她有着卷曲的黑色头发,身穿白色上衣,背景是色彩斑斓的油画布景。"

  },

  "镜头3": {

    "描述": "男子在专心地画画,用调色板和画笔,画布上已经出现了一些黄色和蓝色的星星图案,与梵高的作品相似。"

  },

  "镜头4": {

    "描述": "女子微笑着看向观众,她的表情自信而专注,似乎在思考下一步的绘画计划。"

  },

  "镜头5": {

    "描述": "男子完成了他的作品,展示出一副满意的微笑,画布上的《星夜》复制品变得更加完整和生动。"

  }

}

993b263112235e683c200dc754f7e2b1.png

8385f709847ccc0ffdaade6d98f6d95d.png

959d0b37ecca678734840055cb5c4b8a.png

1475a71ac17dfe226117a05db751f716.png

3d5d844e44799055c54c54081f4762cd.png

如果是按照四格漫画的方式:

97f8c7f1ffca45be0f59ca2503822e7a.png

——

以上是一次简单的实验记录。Flux对于语义的理解确实很强,我们所需要做的就是尽可能地描述清楚图像的每个细节,其他的交给Flux。

(社群可以私信联系加入)

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
spring-data-redis 2.6 是一个用于与 Redis 数据库进行交互的 Java 框架。它提供了一系列的 API 和工具,让开发者能够方便地连接、存储、检索和操作 Redis 中的数据。 spring-data-redis 2.6 的主要特性包括: 1. 注解驱动的编程:通过添加注解,开发者可以轻松地将 Java 对象映射到 Redis 数据库中的数据结构,如字符串、哈希、列表等。这样可以简化开发过程,并提高代码的可读性。 2. 高性能的数据访问:spring-data-redis 2.6 提供了一系列的模板(Template)和存储库(Repository),可以让开发者灵活地进行数据操作。同时,它还支持批量操作和事务,能够提高数据访问的效率。 3. 持久化支持:spring-data-redis 2.6 提供了持久化的支持,可以将 Redis 数据库中的数据持久化到硬盘上,以防止数据丢失。 4. 缓存支持:spring-data-redis 2.6 支持将 Redis 作为缓存提供器,可以方便地使用 Redis 进行缓存管理,以加快应用程序的访问速度。 5. 分布式锁支持:spring-data-redis 2.6 提供了分布式锁的支持,可以在多个应用实例之间协调访问共享资源,避免并发冲突。 总的来说,spring-data-redis 2.6 是一个功能强大、易用性高的 Java 框架,使得与 Redis 数据库的交互变得简单而高效。它能够满足开发者在存储、检索和操作数据方面的需求,并提供了一些额外的功能,如数据持久化、缓存支持和分布式锁支持,以增强应用程序的性能和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值