MiniGPT-4来了、脱胎于LLama、开源且好用

网址:https://minigpt-4.github.io/

论文:MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

代码:https://github.com/Vision-CAIR/MiniGPT-4

演示:MiniGPT-4 - a Hugging Face Space by Vision-CAIR

模型:Vision-CAIR/MiniGPT-4 · Hugging Face

主要思路如图所示:

大致做法为:

1,在语言特征方面:使用大型语言模型 (LLM)--Vicuna(其中 Vicuna 是基于 LLaMA 构建的)进行调优。

2,在视觉感知方面:作者采用了与BLIP-2相同的预训练视觉组件,其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。

3,整合:MiniGPT-4 添加了一个线性投影层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉模型和语言模型参数。

4,Tuning:最后作者收集了另外 3,500 个高质量对齐的图像文本对,使用设计的聊天模板进一步微调模型,以提高生成语言的自然性和可用性。

效果不错,以下为作者给出的一些例子:

在Hugging Face上可以试用,不过就是排队的人太多,用起来很慢。

整体感觉效果不错,问题和现在的LLama一样,就是对中文支持还有待提高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值