GitHub刷屏！MiniGPT-4开源：可以看图聊天、教学、创作、搭网站......

最新推荐文章于 2024-05-22 09:19:53 发布

公众号：【GitHub爱好者社区】

最新推荐文章于 2024-05-22 09:19:53 发布

阅读量657

点赞数

文章标签：人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzMTczODU2Mg==&mid=2247491228&idx=1&sn=6eff1e8f7af1e9f3e291c091a6d32db2&chksm=e89ec331dfe94a27f462dd516f82c3e3aadc641fad4d7bbb82d81725d5f0faebc04de1d8c773&scene=126&sessionid=0

版权

转载自学术头条

一个月前，OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力，如从手写文本直接生成网站和识别图像中的幽默元素等。

尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力，但具有多模态能力的视觉语言模型令人充满了想象力。

近日，来自阿卜杜拉国王科技大学的研究团队，便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4，并将其开源。

据介绍，MiniGPT-4 具有出色的多模态能力，如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案，以及根据食物照片教对话对象如何烹饪一道美味的菜品等。

在技术层面上，MiniGPT-4 由一个带有预训练的 ViT 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成。而且，MiniGPT-4 只需要训练线性层，使视觉特征与 Vicuna 保持一致。

有 Y Combinator 用户这样评价 MiniGPT-4，“在技术层面上，他们正在做一些非常简单的事情......但结果非常惊人。最重要的是，它在 OpenAI 的 GPT-4 图像模态之前出现。（这是）开源 AI 的真正胜利。”

也有用户表示，“我认为他们为一个不相关的项目使用 GPT-4 名称是一种糟糕的形式。毕竟，底层的 Vicuna 只是一个微调的 LLaMA。另外，他们使用了较小的 13B 版本。然而，结果看起来很有趣。”

GitHub：https://github.com/Vision-CAIR/MiniGPT-4

在线体验：https://minigpt-4.github.io/

项目作者认为，GPT-4 所实现的多模态能力，在以前的视觉 - 语言模型中很少见，因此认为，GPT-4 先进的多模态生成能力，主要原因在于利用了更先进的大型语言模型。

公众号：【GitHub爱好者社区】

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GitHub刷屏！MiniGPT-4开源：可以看图聊天、教学、创作、搭网站......

转载自学术头条一个月前，OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力，如从手写文本直接生成网站和识别图像中的幽默元素等。尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力，但具有多模态能力的视觉语言模型令人充满了想象力。近日，来自阿卜杜拉国王科技大学的研究团队，便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——Min...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。