最新多模态模型MiniGPT-4 开源 | 提前感受GPT-4的识图能力 | 基于Vicuna构建的LLM | 能够生成图片描述 | 根据手写文本指令构建网站

最新推荐文章于 2024-10-15 01:20:33 发布

恒TBOSH

最新推荐文章于 2024-10-15 01:20:33 发布

阅读量412

点赞数

分类专栏： GPT-4 文章标签：人工智能深度学习 chatgpt gpt-3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41259045/article/details/130320587

版权

GPT-4 专栏收录该内容

9 篇文章 33 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

MiniGPT-4，一个由KAUST Vision-CAIR团队开发的多模态模型，基于Vicuna和BLIP-2的组件，能够生成图像描述、识别图像问题、根据手绘草图创建网站。此开源项目模仿GPT-4的多模态能力，包括文本理解和视觉感知。用户可以通过在线Demo体验MiniGPT-4的多种功能。

摘要由CSDN通过智能技术生成

概述

最新多模态模型MiniGPT-4 开源：它使用先进的大型语言模型 (LLM)--Vicuna（其中 Vicuna 是基于 LLaMA 构建的）进行调优，在文本语言方面可以达到 ChatGPT 能力的90%。在视觉感知方面，作者采用了与BLIP-2相同的预训练视觉组件，其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。MiniGPT-4 只添加了一个映射层，将编码的视觉特征与Vicuna语言模型对齐，冻结了所有视觉和语言组件参数。

MiniGPT-4介绍

距离GPT-4 已经发布一个多月了，但识图功能还是体验不了。来自阿卜杜拉国王科技大学的研究者推出了类似产品 ——MiniGPT-4，大家可以上手体验了。

对人类来说，理解一张图的信息，不过是一件微不足道的小事，人类几乎不用思考，就能随口说出图片的含义。就像下图，手机插入的充电器多少有点不合适。人类一眼就能看出问题所在，但对 AI 来说，难度还是非常大的。

GPT-4 则能很快的指出图中问题所在：VGA 线充 iPhone是不合适的。

其实 GPT-4 的魅力远不及此，更

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

恒TBOSH 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。