国产开源最强？Qwen2-VL强势发布，效果实测！

flyfor2013

于 2024-09-01 17:56:57 发布

阅读量664

点赞数 17

本文链接：https://blog.csdn.net/flyfor2013/article/details/141793324

版权

大家好，趁着周末赶紧看下本周最新发布的多模态大语言模型Qwen2-VL。因为Qwen2比Qwen提升很大，而且Qwen2-VL还将开源大参数量的模型

Qwen2比Qwen强在哪里：

https://www.zhihu.com/question/658307301

Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力，性能不仅超过美国最强的开源模型 Llama3-70B，也超过文心 4.0、豆包pro、混元 pro 等闭源大模型

在十几个数据集上的测试指标都超越了 Llama3-70B ，具体查看：https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

和 Llama3.1 对比：https://ai.meta.com/blog/meta-llama-3-1/ 依然有一战之力

Qwen2-VL 升级

Qwen2-VL比Qwen-VL又有哪些方面提升

先看权威榜单测试排名：（来源：https://qwenlm.github.io/blog/qwen2-vl/）

从六个关键维度评估模型的视觉能力：复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。总体而言72B 模型在大多数指标上都展示了顶级性能，甚至经常超越 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型。值得注意的是，它在文档理解方面表现出了显着的优势。（等下好好测试下）

与Qwen-VL相比，Qwen2-VL具有以下能力：

1、SoTA 理解各种分辨率和比例的图像：

2、理解20分钟以上的视频：

3、可以操作手机、机器人等的智能体

4、多语言支持

Qwen2-VL 模型能力和结构：

1、识别能力增强

Qwen2-VL 改进的对象识别能力，可以理解场景中多个对象之间的复杂关系。同时提高了模型识别手写文本和图像中多种语言的能力

2、视觉推理：解决现实世界的问题

显着增强了 Qwen2-VL 的数学和编码能力。不仅能够通过分析图片来解决问题，还能够通过图表分析来解释和解决复杂的数学问题。纵横比极度扭曲的图像也可以被正确解释。

3、视频理解和实时聊天

VITA 和 Intern2VL 团队也将发布，可关注下后续开源情况

腾讯开源VITA！全方位对标GPT4o，全能多模态交互大模型！

https://github.com/OpenGVLab/InternVL

4、视觉Agent能力：函数调用和视觉交互

值得期待

官方测试案例，基于航班截图，自动调用插件查询天气情况：

模型结构：

Qwen2-VL继续采用 Qwen-VL 架构，Qwen-VL 架构结合了 Vision Transformer (ViT) 和 Qwen2 语言模型，拥有约6亿参数。Qwen2-VL 引入了 Naive Dynamic Resolution，能处理任意分辨率图像，映射到动态视觉标记，模拟人类视觉感知，处理各种清晰度图像。

另一个关键的架构增强是多模式旋转位置嵌入 (M-ROPE)的创新。通过将原始旋转嵌入解构为表示时间和空间（高度和宽度）信息的三个部分，M-ROPE 使LLM能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。

Qwen2-VL 文档理解能力实测：

这里将基于Qwen2-VL官方的72B和InternVL2-26B在线demo对发票和体检报告的OCR、关键信息抽取和结构化输出等能力做一个简单的测评

Qwen2-VL 72B：

1）https://huggingface.co/spaces/Qwen/Qwen2-VL

2）https://modelscope.cn/studios/qwen/Qwen2-VL

InternVL2-26B：

InternVL2：https://internvl.opengvlab.com/（26B）

1、以发票识别为例：

结构相对比较复杂，结构化识别难度大

相同的prompt：将上面的信息结构化输出，输出格式要求以json的结构输出

Qwen2-VL（两个网站上都测试了，都存在类似的错误）：

识别结果（删除一些不重要的信息-都对的）：

{  "发票代码": "051001800211",
  "发票号码": "65281307",
  "开票日期": "2019年02月23日",
  "校验码": "02259002865525349387",
  "购买方": {
    "名称": "西华大学",
    "纳税人识别号": "12510000450717578X", 
    "地址、电话": "",
    "开户行及账号": ""
  },
  "货物或应税劳务、服务名称": "印刷品*项目经济性分析与评价",
  "规格型号": "",
  "单位": "套",
  "数量": 1,
  "单价": "35.50000",
  "金额": "35.50",
  "税率": "免税",
  "税额": "",
  "价税合计": "79.80",

InternVL2：https://internvl.opengvlab.com/（26B）

识别结果：

{
  "发票代码": "051001800211",
  "发票号码": "65281307",
  "开票日期": "2019年02月23日",
  "校验码": "02259 00286 55253 49387",
  "购买方": {
    "名称": "西华大学",
    "纳税人识别号": "12510000450717578Y",
    "地址、电话": "",
    "开户行及账号": ""
  },
  "货物或应税劳务、服务名称": [
    {
      "名称": "印刷品*项目经济性分析与评价",
      "规格型号": "",
      "单位": "套",
      "数量": 1,
      "单价": "35.5000",
      "金额": "35.50"
    },
    {
      "名称": "印刷品*投资项目可行性分析——理论精要与案例解析（第3版）",
      "规格型号": "",
      "单位": "套",
      "数量": 1,
      "单价": "44.3000",
      "金额": "44.30"
    }
  ],
  "价税合计": {
    "小写": "¥79.80",
    "大写": "柒拾玖元捌角"
  }

识别结果对比（单从上面的例子来看）：

1、OCR识别的能力：InternVL2 - 26B的效果稍微优于Qwen2-VL 72B

理由：购买方的"纳税人识别号": "12510000450717578Y"的 Y 被QWen2-VL识别错误为X，而InternVL2正确识别

2、关键信息提取能力：InternVL2 - 26B的效果明显优于Qwen2-VL 72B

对于票据中间的多项内容的信息提取和结构化，Qwen2-VL基本上只提取了一项，对于整体结构理解还是差了点

2、以体检识别为例：

以下识别结果中删除一些不重要的信息-都对的，便于观察

Qwen2-VL识别结果：

{
  "医院": "应城市人民医院",
  "标本号": "2",
  "姓名": "XXX",
  "性别": "男",
  "年龄": "31岁",
  "病历号": "0000636103",
  "科室": "体检保健科",
  "床号": "",
  "病人类型": "门诊",
  "标本类型": "全血",
  "送检日期": "2014/07/01",
  "临床诊断": "",
  "检验日期": "2014/07/01",
  "报告日期": "2014/07/01 07:53",
  "检验师": "张艳红",
  "审核者": "龚军",
  "备注": "",
  "检验结果": [
    {
      "项目": "WBC 白细胞",
      "结果": "10.43↑",
      "参考值": "4--10 10^9/L"
    },
    {
      "项目": "RBC 红细胞",
      "结果": "4.76",
      "参考值": "4--5.5 10^12/L"
    },

InternVL2识别结果：

{
  "检验报告单": {
    "医院名称": "应城市人民医院",
    "标本号": "2",
    "临床血液": {
      "姓名": "[redacted]",
      "性别": "男",
      "年龄": "31岁",
      "病历号": "0000636103",
      "科室": "体检保健科",
      "床号": "",
      "病人类型": "门诊",
      "样本类型": "全血",
      "送检日期": "2014/07/01",
      "临床诊断": "",
      "医生": "龚军",
      "检验师": "张艳红",
      "审核者": "[signature]"
    },
    "检验结果": {
      "WBC": {"结果": "10.43", "参考值": "4--10 10^9/L", "状态": "↑"},
      "RBC": {"结果": "4.76", "参考值": "4--5.5 10^12/L"},

识别结果对比（单从上面的例子来看）：

1、OCR识别的能力：基本差不多

2、关键信息提取：InternVL2 略胜一筹

理由：在医生、审核者关联上，Qwen2-VL 出错，而 InternVL2 虽未合并“送检医生”信息，但整体识别更佳。体检项目代号与项目名的整合上，Qwen2-VL 表现更好。

总体上，个人感觉在这两个测试案例上，InternVL2还是要优秀一些。

最后，看到这里的小伙伴多帮忙转发、分享、点赞。后续为大家分析更多最近的成果，感谢