华人团队迷你GPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

QbitAl

于 2023-04-19 19:20:42 发布

阅读量210

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247673995&idx=3&sn=ec6b7665769ff74432239ebcdf1326d8&chksm=e8de9ff9dfa916ef601145233cda533c26313ec138cc47307fa5516eaa6c58298b46a6acd87a&scene=126&sessionid=0

版权

梦晨发自凹非寺
量子位 | 公众号 QbitAI

GPT-4识图功能迟迟不开放，终于有人忍不住自己动手做了一个。

MiniGPT-4来了，Demo开放在线可玩。

传一张海鲜大餐照片上去，就能直接获得菜谱。

传一张商品效果图，就可以让AI写一篇带货文案。

手绘一个网页，可以给出对应的HTML代码

除了生产力拉满，也支持根据常识推理图上内容是否合理、解释表情包为什么好笑，以及看截图找电影等娱乐玩法。

可以说，GPT-4发布时展示过的功能，MiniGPT-4基本也都有了。

这下网友直接把Demo服务器挤爆，开发团队连开4台备用服务器，都有几十人在排队。

不等OpenAI了，现在就能玩

除了研究团队给出的示例，网友也用MiniGPT-4玩出了各种花样

有人上传自己画的画，让AI评价评价。

有人上传一张从车道拍摄的飞机坠毁瞬间，让MiniGPT-4尽可能详细地描述，并思考自动驾驶AI能不能理解这个场面。

做到这么好的效果，MiniGPT-4实现起来却并不复杂。

把图像编码器与开源语言模型Vicuna（小羊驼）整合起来，并且冻结了两者的大部分参数，只需要训练很少一部分。

传统预训练阶段，使用4张A100在10个小时内就可完成，此时训练出来的Vicuna已能够理解图像，但生成能力受到很大影响。

为解决这个问题，团队让MiniGPT-4与ChatGPT合作创建了3500个图像文本的高质量数据集，也一并开源。‍

用新的数据集微调可以显著提高模型的生成可靠性和整体可用性，而且计算效率很高，使用单个A100只需要7分钟。

并且团队正在准备一个更轻量级的版本，部署起来只需要23GB显存。

也就是消费级显卡中拥有24GB显存的3090或4090就可以本地运行了。

MiniGPT-4开发团队来自KAUST（沙特阿卜杜拉国王科技大学），包括4位华人成员和他们的导师 Mohamed Elhoseiny。

两位正在读博的共同一作还在GitHub页面上特别标注正在找工作。

有意向的公司要抓紧抢人了～

在线Demo：
https://minigpt-4.github.io

开源代码：
https://github.com/Vision-CAIR/MiniGPT-4

论文：
https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

— 完 —

《中国AIGC算力产业全景报告》征集启动

AIGC算力需求爆发，谁将在此次算力产业变革中脱颖而出？

量子位《中国AIGC算力产业全景报告》和《最值得关注的AIGC算力玩家》正式启动对外征集，期待有更多优秀的机构产品、案例与技术能够被大众看到。

点这里👇关注我，记得标星哦～

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
华人团队迷你GPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

梦晨发自凹非寺量子位 | 公众号 QbitAIGPT-4识图功能迟迟不开放，终于有人忍不住自己动手做了一个。MiniGPT-4来了，Demo开放在线可玩。传一张海鲜大餐照片上去，就能直接获得菜谱。传一张商品效果图，就可以让AI写一篇带货文案。手绘一个网页，可以给出对应的HTML代码除了生产力拉满，也支持根据常识推理图上内容是否合理、解释表情包为什么好笑，以及看截图找电影等娱乐玩法。可以说，GP...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。