一、概述
1、是什么
是一款面向终端设备的多模态大型语言模型(MLLM),论文暂未发布
,它专注于实现在手机等资源受限设备上的高级AI功能,参数8B(qwen2 7B +
SigLIP ViT-400m/14 + 视觉标记压缩层
)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、代码编写和debug、
多图问对话、视频理解对话
、json格式、高清OCR解析(函数调用论文暂时未提)。
2、亮点
🔥 领先的性能。 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-