国产开源最强?Qwen2-VL强势发布,效果实测!

大家好,趁着周末赶紧看下本周最新发布的多模态大语言模型Qwen2-VL。因为Qwen2比Qwen提升很大,而且Qwen2-VL还将开源大参数量的模型0e8186c8cd21e405c7fa88c26a20c740.png

48a73d751c5c8af2e80af86a371a2c7c.png

Qwen2比Qwen强在哪里:

https://www.zhihu.com/question/658307301

Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力,性能不仅超过美国最强的开源模型 Llama3-70B,也超过文心 4.0、豆包pro、混元 pro 等闭源大模型

在十几个数据集上的测试指标都超越了 Llama3-70B ,具体查看:https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

和 Llama3.1 对比:https://ai.meta.com/blog/meta-llama-3-1/ 依然有一战之力


Qwen2-VL 升级

Qwen2-VL比Qwen-VL又有哪些方面提升

先看权威榜单测试排名:(来源:https://qwenlm.github.io/blog/qwen2-vl/)

df42bdb57f486ebbefac094a3d04ddf2.jpeg

从六个关键维度评估模型的视觉能力:复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。总体而言72B 模型在大多数指标上都展示了顶级性能,甚至经常超越 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型。值得注意的是,它在文档理解方面表现出了显着的优势6c519449b431fb66cce534fff41decc0.png等下好好测试下)

与Qwen-VL相比,Qwen2-VL具有以下能力:

1、SoTA 理解各种分辨率和比例的图像:

2、理解20分钟以上的视频:

3、可以操作手机、机器人等的智能体

4、多语言支持

Qwen2-VL 模型能力和结构:

1、识别能力增强

Qwen2-VL 改进的对象识别能力,可以理解场景中多个对象之间的复杂关系。同时提高了模型识别手写文本和图像中多种语言的能力

2、视觉推理:解决现实世界的问题

显着增强了 Qwen2-VL 的数学和编码能力。不仅能够通过分析图片来解决问题,还能够通过图表分析来解释和解决复杂的数学问题。纵横比极度扭曲的图像也可以被正确解释。

3、视频理解和实时聊天

VITA 和 Intern2VL 团队也将发布,可关注下后续开源情况

腾讯开源VITA!全方位对标GPT4o,全能多模态交互大模型!

https://github.com/OpenGVLab/InternVL

4、视觉Agent能力:函数调用和视觉交互

值得期待69eb6e25a95574b631a7e733c98da641.png

官方测试案例,基于航班截图,自动调用插件查询天气情况:

28e1eb2a2a3d4ac6d85a24acec3e49a1.png

模型结构:

Qwen2-VL继续采用 Qwen-VL 架构,Qwen-VL 架构结合了 Vision Transformer (ViT) 和 Qwen2 语言模型,拥有约6亿参数。Qwen2-VL 引入了 Naive Dynamic Resolution,能处理任意分辨率图像,映射到动态视觉标记,模拟人类视觉感知,处理各种清晰度图像。

29defdc73800007c6206d6c6e341aa11.jpeg

另一个关键的架构增强是多模式旋转位置嵌入 (M-ROPE)的创新。通过将原始旋转嵌入解构为表示时间和空间(高度和宽度)信息的三个部分,M-ROPE 使LLM能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。

f4787becd28f12f9527a71ec804f3b12.png

Qwen2-VL 文档理解能力实测:

这里将基于Qwen2-VL官方的72B和InternVL2-26B在线demo对发票和体检报告的OCR、关键信息抽取和结构化输出等能力做一个简单的测评

Qwen2-VL 72B:

1)https://huggingface.co/spaces/Qwen/Qwen2-VL

2)https://modelscope.cn/studios/qwen/Qwen2-VL

InternVL2-26B:

InternVL2:https://internvl.opengvlab.com/(26B)

1、以发票识别为例:

结构相对比较复杂,结构化识别难度大

1b6710f22ba6faf3e7fbacd57f88fb96.jpeg

相同的prompt:将上面的信息结构化输出,输出格式要求以json的结构输出

Qwen2-VL(两个网站上都测试了,都存在类似的错误):

识别结果(删除一些不重要的信息-都对的):

{  "发票代码": "051001800211",
  "发票号码": "65281307",
  "开票日期": "2019年02月23日",
  "校验码": "02259002865525349387",
  "购买方": {
    "名称": "西华大学",
    "纳税人识别号": "12510000450717578X", 
    "地址、电话": "",
    "开户行及账号": ""
  },
  "货物或应税劳务、服务名称": "印刷品*项目经济性分析与评价",
  "规格型号": "",
  "单位": "套",
  "数量": 1,
  "单价": "35.50000",
  "金额": "35.50",
  "税率": "免税",
  "税额": "",
  "价税合计": "79.80",

InternVL2:https://internvl.opengvlab.com/(26B)

识别结果:

{
  "发票代码": "051001800211",
  "发票号码": "65281307",
  "开票日期": "2019年02月23日",
  "校验码": "02259 00286 55253 49387",
  "购买方": {
    "名称": "西华大学",
    "纳税人识别号": "12510000450717578Y",
    "地址、电话": "",
    "开户行及账号": ""
  },
  "货物或应税劳务、服务名称": [
    {
      "名称": "印刷品*项目经济性分析与评价",
      "规格型号": "",
      "单位": "套",
      "数量": 1,
      "单价": "35.5000",
      "金额": "35.50"
    },
    {
      "名称": "印刷品*投资项目可行性分析——理论精要与案例解析(第3版)",
      "规格型号": "",
      "单位": "套",
      "数量": 1,
      "单价": "44.3000",
      "金额": "44.30"
    }
  ],
  "价税合计": {
    "小写": "¥79.80",
    "大写": "柒拾玖元捌角"
  }

识别结果对比(单从上面的例子来看):

1、OCR识别的能力:InternVL2 - 26B的效果稍微优于Qwen2-VL 72B

理由:购买方的"纳税人识别号": "12510000450717578Y"的 Y 被QWen2-VL识别错误为X,而InternVL2正确识别

2、关键信息提取能力:InternVL2 - 26B的效果明显优于Qwen2-VL 72B

对于票据中间的多项内容的信息提取和结构化,Qwen2-VL基本上只提取了一项,对于整体结构理解还是差了点

2、以体检识别为例:

52892cc447520529bd70640b4bedf550.jpeg

以下识别结果中删除一些不重要的信息-都对的,便于观察

Qwen2-VL识别结果:

{
  "医院": "应城市人民医院",
  "标本号": "2",
  "姓名": "XXX",
  "性别": "男",
  "年龄": "31岁",
  "病历号": "0000636103",
  "科室": "体检保健科",
  "床号": "",
  "病人类型": "门诊",
  "标本类型": "全血",
  "送检日期": "2014/07/01",
  "临床诊断": "",
  "检验日期": "2014/07/01",
  "报告日期": "2014/07/01 07:53",
  "检验师": "张艳红",
  "审核者": "龚军",
  "备注": "",
  "检验结果": [
    {
      "项目": "WBC 白细胞",
      "结果": "10.43↑",
      "参考值": "4--10 10^9/L"
    },
    {
      "项目": "RBC 红细胞",
      "结果": "4.76",
      "参考值": "4--5.5 10^12/L"
    },

InternVL2识别结果:

{
  "检验报告单": {
    "医院名称": "应城市人民医院",
    "标本号": "2",
    "临床血液": {
      "姓名": "[redacted]",
      "性别": "男",
      "年龄": "31岁",
      "病历号": "0000636103",
      "科室": "体检保健科",
      "床号": "",
      "病人类型": "门诊",
      "样本类型": "全血",
      "送检日期": "2014/07/01",
      "临床诊断": "",
      "医生": "龚军",
      "检验师": "张艳红",
      "审核者": "[signature]"
    },
    "检验结果": {
      "WBC": {"结果": "10.43", "参考值": "4--10 10^9/L", "状态": "↑"},
      "RBC": {"结果": "4.76", "参考值": "4--5.5 10^12/L"},

识别结果对比(单从上面的例子来看):

1、OCR识别的能力:基本差不多

2、关键信息提取:InternVL2 略胜一筹

理由:在医生、审核者关联上,Qwen2-VL 出错,而 InternVL2 虽未合并“送检医生”信息,但整体识别更佳。体检项目代号与项目名的整合上,Qwen2-VL 表现更好。

总体上,个人感觉在这两个测试案例上,InternVL2还是要优秀一些。

1854b599df8d21ec11b34cf3db6e0f93.png最后,看到这里的小伙伴多帮忙转发、分享、点赞。后续为大家分析更多最近的成果,感谢

66a47e34ce9b7afbfffce29494a59fc2.jpeg

项目地址:

代码:https://github.com/QwenLM/Qwen2-VL/

博客:https://qwenlm.github.io/blog/qwen2-vl/

其他参考链接:

Qwen2:https://www.zhihu.com/question/658307301

Qwen2:https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

llama-3-1:https://ai.meta.com/blog/meta-llama-3-1/

Qwen2-VL:https://modelscope.cn/studios/qwen/Qwen2-VL

InternVL2:https://internvl.opengvlab.com/

推荐

微信交流群现已有2000+从业人员交流群,欢迎进群交流学习(nvshenj125)

请备注:方向+姓名+学校/公司名称!一定要根据格式申请,拉你进群。

a1fee902ccb164ec73cfec93895087ab.jpeg

B站最新成果demo分享地址:https://space.bilibili.com/288489574

顶会工作整理Github repo:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值