项目主页:https://github.com/QwenLM/Qwen-VL
通义前问网页在线使用
——(文本问答,图片理解,文档解析):https://tongyi.aliyun.com/qianwen/
论文
v3. : 一个全能的视觉语言模型
23.10 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
Qwen-VL-Chat
部分示例:支持多个图像输入、多轮对话、文本阅读、定位、细粒度识别和理解能力
一、Qwen-VL简介
Qwen-VL
是阿里基于语言模型Qwen-7B
(LLMs),研发的大规模视觉语言模型(Large Vision Language Model, LVLM)
Qwen-VL = 大语言模型(Qwen-7B) + 视觉图片特征编码器(Openclip’s
ViT-bigG
) + 位置感知视觉语言适配器(可训练Adapter)+约15亿
训练数据+多轮训练
功能上:
- 支持多语言,特别是中英文对话
- 支持
多个图像
输入 - 中英双语的长文本识别
- 对图片中物体定位 :能够确定与给定描述相对应的具体区域(也称 grounding)
- 相对其他视觉模型,进行对图片更多细节识别和理解