引言
随着大语言模型(LLM)的快速发展,赋予其多模态输入输出能力已成为当前Vision Language Model (VLM)研究的重点方向。然而,即便是业界顶尖的模型,如GPT-4和Gemini,在视觉理解和生成方面仍存在一定的局限性。香港中文大学终身教授贾佳亚团队最新提出的Mini-Gemini模型,力图通过创新的网络架构和高质量数据,进一步挖掘VLM的潜力,实现跨模态的感知、推理和生成能力。
-
Huggingface模型下载:https://huggingface.co/YanweiLi
-
AI快站模型免费加速下载:https://aifasthub.com/models/YanweiLi
模型创新
Mini-Gemini的核心创新点主要体现在三个方面:高效的高分辨率视觉编码机制、高质量的多模态训练数据,以及与生成模型的深度融合。
首先,Mini-Gemini采用了一种双编码器架构,将传统的视觉变换模型(ViT)作为低分辨率查询,而使用卷积网络(ConvNet)编码高分辨率图像作为键值。通过Transformer