VM 系列——SEED-X——论文解读

29 篇文章 7 订阅 ¥89.90 ¥99.00

一、概述

1、是什么

    是一个多模态大模型,论文全称《SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation》,不同于之前的图像文本大模型,主要面向图像问答理解。通过动态分辨率图像编码来处理任意尺寸和宽高比的图像,其作为一个统一的多模态基础模型,通过不同的指令调整,可以在现实世界中作为各种多模态 AI 助手使用,支持图像理解、生成、编辑(在指定图像通过文本指令改变图像内容)和检测等功能。但是一定要注意文章提到,当前不同的功能是不同的独立子模型实现的。

2、亮点

    *任意尺寸和比例的图像理解:SEED-X 能够理解任意尺寸和比例的图像,这使得模型能够更灵活地处理现实世界中的各种视觉数据。
    *多粒度图像生成:SEED-X 不仅支持高级指令性的图像生成,还支持低级图像操作任务,这包括了从高层次的指令生成图像到低层次的图像编辑。
    *开源:开源了训练和微调代码,并且开源了图像编辑的内部数据。

PS

    这篇文章如果单独看可能会很乱,不知道他到底有几个模型,模型结构到底是怎样。本篇文章并没有讲所有任务最终合为一个模型,其实有如下多个模型:
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值