VM 系列——SEED-X——论文解读

最新推荐文章于 2024-08-04 19:49:49 发布

TigerZ*

最新推荐文章于 2024-08-04 19:49:49 发布

阅读量267

点赞数

分类专栏： AIGC算法文章标签： AIGC 人工智能 transformer 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012863603/article/details/138817476

版权

AIGC算法专栏收录该内容

31 篇文章 11 订阅 ¥89.90 ¥99.00

订阅专栏

一、概述

1、是什么

是一个多模态大模型，论文全称《SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation》，不同于之前的图像文本大模型，主要面向图像问答理解。通过动态分辨率图像编码来处理任意尺寸和宽高比的图像，其作为一个统一的多模态基础模型，通过不同的指令调整，可以在现实世界中作为各种多模态 AI 助手使用，支持图像理解、生成、编辑（在指定图像通过文本指令改变图像内容）和检测等功能。但是一定要注意文章提到，当前不同的功能是不同的独立子模型实现的。

2、亮点

*任意尺寸和比例的图像理解：SEED-X 能够理解任意尺寸和比例的图像，这使得模型能够更灵活地处理现实世界中的各种视觉数据。

*多粒度图像生成：SEED-X 不仅支持高级指令性的图像生成，还支持低级图像操作任务，这包括了从高层次的指令生成图像到低层次的图像编辑。

*开源：开源了训练和微调代码，并且开源了图像编辑的内部数据。

PS

这篇文章如果单独看可能会很乱，不知道他到底有几个模型，模型结构到底是怎样。本篇文章并没有讲所有任务最终合为一个模型，其实有如下多个模型：

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
VM 系列——SEED-X——论文解读

seed-x 不同于之前的图像文本大模型，主要面向图像问答理解。通过动态分辨率图像编码来处理任意尺寸和宽高比的图像，其作为一个统一的多模态基础模型，通过不同的指令调整，可以在现实世界中作为各种多模态 AI 助手使用，支持图像理解、生成、编辑（在指定图像通过文本指令改变图像内容）和检测等功能。但是一定要注意文章提到，当前不同的功能是不同的独立子模型实现的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TigerZ* 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。