网址:https://minigpt-4.github.io/
论文:MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
代码:https://github.com/Vision-CAIR/MiniGPT-4
演示:MiniGPT-4 - a Hugging Face Space by Vision-CAIR
模型:Vision-CAIR/MiniGPT-4 · Hugging Face
主要思路如图所示:
大致做法为:
1,在语言特征方面:使用大型语言模型 (LLM)--Vicuna(其中 Vicuna 是基于 LLaMA 构建的)进行调优。
2,在视觉感知方面:作者采用了与BLIP-2相同的预训练视觉组件,其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。
3,整合:MiniGPT-4 添加了一个线性投影层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉模型和语言模型参数。
4,Tuning:最后作者收集了另外 3,500 个高质量对齐的图像文本对,使用设计的聊天模板进一步微调模型,以提高生成语言的自然性和可用性。
效果不错,以下为作者给出的一些例子:
在Hugging Face上可以试用,不过就是排队的人太多,用起来很慢。
整体感觉效果不错,问题和现在的LLama一样,就是对中文支持还有待提高。