最新多模态模型MiniGPT-4 开源 | 提前感受GPT-4的识图能力 | 基于Vicuna构建的LLM | 能够生成图片描述 | 根据手写文本指令构建网站

MiniGPT-4,一个由KAUST Vision-CAIR团队开发的多模态模型,基于Vicuna和BLIP-2的组件,能够生成图像描述、识别图像问题、根据手绘草图创建网站。此开源项目模仿GPT-4的多模态能力,包括文本理解和视觉感知。用户可以通过在线Demo体验MiniGPT-4的多种功能。
摘要由CSDN通过智能技术生成

概述

最新多模态模型MiniGPT-4 开源:它使用先进的大型语言模型 (LLM)--Vicuna(其中 Vicuna 是基于 LLaMA 构建的)进行调优,在文本语言方面可以达到 ChatGPT 能力的90%。在视觉感知方面,作者采用了与BLIP-2相同的预训练视觉组件,其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。MiniGPT-4 只添加了一个映射层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉和语言组件参数。

MiniGPT-4介绍

距离GPT-4 已经发布一个多月了,但识图功能还是体验不了。来自阿卜杜拉国王科技大学的研究者推出了类似产品 ——MiniGPT-4,大家可以上手体验了。

对人类来说,理解一张图的信息,不过是一件微不足道的小事,人类几乎不用思考,就能随口说出图片的含义。就像下图,手机插入的充电器多少有点不合适。人类一眼就能看出问题所在,但对 AI 来说,难度还是非常大的。 

GPT-4 则能很快的指出图中问题所在:VGA 线充 iPhone是不合适的。

其实 GPT-4 的魅力远不及此,更

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

恒TBOSH

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值