GitHub刷屏!MiniGPT-4开源:可以看图聊天、教学、创作、搭网站......

转载自学术头条

一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。


尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。

近日,来自阿卜杜拉国王科技大学的研究团队,便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4,并将其开源1ce9ae22be05d5dbb86b28d1a6412dc9.png

据介绍,MiniGPT-4 具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案,以及根据食物照片教对话对象如何烹饪一道美味的菜品等2d1625069f4431a7a2e770947ad90f38.png

在技术层面上,MiniGPT-4 由一个带有预训练的 ViT 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成。而且,MiniGPT-4 只需要训练线性层,使视觉特征与 Vicuna 保持一致。

有 Y Combinator 用户这样评价 MiniGPT-4,“在技术层面上,他们正在做一些非常简单的事情......但结果非常惊人。最重要的是,它在 OpenAI 的 GPT-4 图像模态之前出现。(这是)开源 AI 的真正胜利。”

也有用户表示,“我认为他们为一个不相关的项目使用 GPT-4 名称是一种糟糕的形式。毕竟,底层的 Vicuna 只是一个微调的 LLaMA。另外,他们使用了较小的 13B 版本。然而,结果看起来很有趣。”

GitHub:https://github.com/Vision-CAIR/MiniGPT-4

在线体验:https://minigpt-4.github.io/

项目作者认为,GPT-4 所实现的多模态能力,在以前的视觉 - 语言模型中很少见,因此认为,GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。

36efd45f045165720700b4caaf8a4f56.png15ba2d49e9d020c51826c4321cea27ac.pngc711a52f1e127d90355658a41ae4aebb.png49302ef9e07912ec2e6554010f544283.pngca2c096b442c0b4836912e5161e47f7b.pngba11cce5d521e7065db0c43e0f6cface.png5b8108a0c015d0533a8a83e4869cf4ab.pnga60dd84affd8706aed52b4123149ad1c.pngd0f25082f6b234922a527cba06b5fb9a.png9f93927a904156f30555a1d9f1d8c971.pnge776a17a0359b06b33c1cdb6fec4af82.png0872d37a9cac6d28b42c45d2686e6116.png0e9da86ff8e6efb449bd1274d3cfcbdd.png058f68b7bea7d6206f6ea1e6687e3814.png6a144def65a54f9e8a09589d7485cce8.png174723ae8fd8c80f2497022f26cf7ffc.pngfa7e375974005bb5a492bd636aef3d80.png2dc77514345aaa94cb246b895a840d63.pngfe53f63a8d90796c2567480a8d106dac.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值