多模态模型通义千问 2.5-VL-32B-Instruct尝鲜——做小学数学题

前言

Qwen2.5-VL-32B-Instruct是由阿里巴巴达摩院研发的多模态大模型,于2025年3月正式发布。该模型在Qwen2-VL基础上进行了深度优化,通过动态分辨率训练、时间维度的MRoPE编码等技术创新,实现了视觉理解能力的跨越式提升。模型参数规模达320亿,支持图像、视频、文本多模态输入,可处理长达1小时的视频内容,并具备精准的事件定位能力。

核心能力方面,Qwen2.5-VL-32B在视觉分析领域表现突出:不仅能识别常规物体,还可解析图像中的文本、图表、图标及布局结构;支持生成结构化输出(如发票扫描数据提取);可通过 bounding box 或坐标点实现精准物体定位。在视频理解方面,模型通过动态帧率采样技术,能处理不同帧率的视频输入,并通过绝对时间对齐技术实现毫秒级事件定位。

技术架构上,模型采用精简高效的视觉编码器,将窗口注意力机制融入ViT架构,结合SwiGLU激活函数和RMSNorm归一化,提升了训练与推理效率。文本处理方面,模型在MMLU、MATH等权威基准测试中表现优异,数学推理能力尤为突出,在MathVista数据集上准确率达74.7%。

应用场景覆盖金融、电商、教育等多个领域。例如在金融领域,可自动解析票据影像生成结构化数据;在智能客服场景,能通过屏幕截图分析用户操作问题;在教育场景,可实现数学公式图像的自动解题。开发者可通过Hugging Face Transformers或ModelScope平台调用模型API,支持本地文件、URL、Base64编码等多种输入格式,并提供灵活的分辨率控制参数以平衡性能与资源消耗。

该模型采用Apache-2.0开源协议,相关代码已集成至Hugging Face Transformers最新版本。官方提供qwen-vl-utils工具包简化多模态输入处理,推荐安装decord库以加速视频加载。通过动态调整最大像素数,模型可适配从移动端到服务器的多样化部署环境,展现出强大的工程实用性。

小学数学题测试

测试代码,魔搭社区现在有个测试免费的tocken如下:

# -*- coding: utf-8 -*-
"""
Created on Wed Mar 26 08:15:54 2025

@author: 18268
"""

from openai import OpenAI

client = OpenAI(
    base_url='https://api-inference.modelscope.cn/v1/',
    api_key='e7a0c602-f342-41b7-8ffa-0a375cbb0bb4', # ModelScope Token
)

response = client.chat.completions.create(
    model='Qwen/Qwen2.5-VL-32B-Instruct', # ModelScope Model-Id
    messages=[{
        'role':
            'user',
        'content': [{
            'type': 'text',
            'text': '这个图中第1题怎么做',
        }, {
            'type': 'image_url',
            'image_url': {
                'url':
                    'https://files.eduuu.com/img/2017/06/30/153417_5955fef942c92.png',
            },
        }],
    }],
    stream=True
)

for chunk in response:
    print(chunk.choices[0].delta.content, end='', flush=True)

二年级应用题

如下试卷第五题:
在这里插入图片描述
测试结果终端输出如下:

### 第五题题目:
**面包师傅做了 60 个面包,小明买走了 13 个,小红买走了 29 个,还可以买几个?**

---

### 解题步骤:

1. **已知信息:**
   - 面包总数:60 个
   - 小明买走的面包数:13 个
   - 小红买走的面包数:29 个

2. **问题目标:**
   - 计算剩余的面包数量,即还可以买的面包数量。

3. **解题思路:**
   - 剩余的面包数量 = 总面包数 - 小明买走的数量 - 小红买走的数量。
   - 数学表达式为:
     \[
     \text{剩余面包数} = 60 - 13 - 29
     \]

4. **逐步计算:**
   - 先计算小明和小红总共买走的面包数:
     \[
     13 + 29 = 42
     \]
   - 再用总面包数减去总共买走的数量:
     \[
     60 - 42 = 18
     \]

5. **最终答案:**
   - 还可以买的面包数量为 18 个。

---

### 答案:
\[
\boxed{18}
\]

小学几何题

测试试卷如下,分别问了第1、3题:
在这里插入图片描述
第3题回答如下:

### 第3题:数一数下面几幅图中各有多少个三角形

#### **第1幅图:**
![第1幅图](https://i.imgur.com/5Zz4LqJ.png)

这是一幅由多个小三角形组成的图形。我们需要仔细数出所有的三角形,包括单独的小三角形和由多个小三角形组合而成的大三角形。

**步骤:**
1. **单独的小三角形:**
   - 图中有 7 个小三角形(从左到右依次编号为 1、2、3、4、5、6、7)。
   
2. **由两个小三角形组成的三角形:**
   - 三角形 12 组成一个大三角形。
   - 三角形 23 组成一个大三角形。
   - 三角形 34 组成一个大三角形。
   - 三角形 45 组成一个大三角形。
   - 三角形 56 组成一个大三角形。
   - 三角形 67 组成一个大三角形。
   - 共有 6 个这样的三角形。

3. **由三个小三角形组成的三角形:**
   - 三角形 1、2、3 组成一个大三角形。
   - 三角形 2、3、4 组成一个大三角形。
   - 三角形 3、4、5 组成一个大三角形。
   - 三角形 4、5、6 组成一个大三角形。
   - 三角形 5、6、7 组成一个大三角形。
   - 共有 5 个这样的三角形。

4. **由四个小三角形组成的三角形:**
   - 三角形 1、2、3、4 组成一个大三角形。
   - 三角形 2、3、4、5 组成一个大三角形。
   - 三角形 3、4、5、6 组成一个大三角形。
   - 三角形 4、5、6、7 组成一个大三角形。
   - 共有 4 个这样的三角形。

5. **由五个小三角形组成的三角形:**
   - 三角形 1、2、3、4、5 组成一个大三角形。
   - 三角形 2、3、4、5、6 组成一个大三角形。
   - 三角形 3、4、5、6、7 组成一个大三角形。
   - 共有 3 个这样的三角形。

6. **由六个小三角形组成的三角形:**
   - 三角形 1、2、3、4、5、6 组成一个大三角形。
   - 三角形 2、3、4、5、6、7 组成一个大三角形。
   - 共有 2 个这样的三角形。

7. **由七个小三角形组成的三角形:**
   - 整个图形本身就是一个大三角形。
   - 共有 1 个这样的三角形。

**总结:**
- 单独的小三角形:7 个
- 由 2 个小三角形组成的三角形:6 个
- 由 3 个小三角形组成的三角形:5 个
- 由 4 个小三角形组成的三角形:4 个
- 由 5 个小三角形组成的三角形:3 个
- 由 6 个小三角形组成的三角形:2 个
- 由 7 个小三角形组成的三角形:1 个

**总数:**
\[ 7 + 6 + 5 + 4 + 3 + 2 + 1 = 28 \]

#### **第2幅图:**
![第2幅图](https://i.imgur.com/9vQ0wXr.png)

这是一幅由正方形和对角线组成的图形。我们需要数出所有可能的三角形。

**步骤:**
1. **单独的小三角形:**
   - 正方形被两条对角线分割成 4 个小三角形。

2. **由两个小三角形组成的三角形:**
   - 每条对角线将正方形分成两个大三角形,共有 2 个这样的三角形。

3. **整个正方形形成的三角形:**
   - 整个图形本身没有更大的三角形。

**总结:**
- 单独的小三角形:4 个
- 由 2 个小三角形组成的三角形:2 个

**总数:**
\[ 4 + 2 = 6 \]

### **最终答案:**
- 第1幅图:\( \boxed{28} \)
- 第2幅图:\( \boxed{6} \)

第1题回答如下:

### 第1题:数一数下图中各种图形分别有几个。

题目要求我们统计图中不同类型的图形数量。我们需要仔细观察并逐一计数。

#### 图形分类:
- 正方形(□)
- 长方形(▱)
- 三角形(△)
- 圆形(○)
- 平行四边形(□)
- 梯形(▽)

#### 图形分析:
我们按照顺序逐个识别和计数:

1. **正方形(□)**:
   - 图中有 2 个正方形(蓝色和绿色的方块)。
   - 答案:2

2. **长方形(▱)**:
   - 图中有 1 个长方形(黄色的矩形)。
   - 答案:1

3. **三角形(△)**:
   - 图中有 1 个三角形(蓝色的三角形)。
   - 答案:1

4. **圆形(○)**:
   - 图中有 1 个圆形(紫色的圆点)。
   - 答案:1

5. **平行四边形(□)**:
   - 图中没有平行四边形。
   - 答案:0

6. **梯形(▽)**:
   - 图中有 1 个梯形(粉色的梯形)。
   - 答案:1

#### 最终答案:
将上述结果填入对应的括号中:
- 正方形(□):2
- 长方形(▱):1
- 三角形(△):1
- 圆形(○):1
- 平行四边形(□):0
- 梯形(▽):1

### 答案:
\[
\boxed{2, 1, 1, 1, 0, 1}
\]

体会

从上面测试感觉来看,模型对于OCR的识别能力可以说是非常强,数学的推理能力也不错。但是对基本的图形识别能力可能存在一些不足。后来我又试了一些物体图片,模型准确率还挺高的。这简直是具身智能的福音,以后这个模型继续完善后,直接可以安在咱们的机械臂上、小车上,这不就是给机械臂和小车安上眼睛和大脑了吗。

-----------------本篇完------------------

PS.扩展阅读

————————————————————————————————————————

对于python机器人编程感兴趣的小伙伴,可以进入如下链接阅读相关咨询

ps1.六自由度机器人相关文章资源

(1) 对六自由度机械臂的运动控制及python实现(附源码)
在这里插入图片描述

(2) N轴机械臂的MDH正向建模,及python算法
在这里插入图片描述

ps2.四轴机器相关文章资源

(1) 文章:python机器人编程——用python实现一个写字机器人
在这里插入图片描述

在这里插入图片描述

(2)python机器人实战——0到1创建一个自动是色块机器人项目-CSDN直播

(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(4)实现了语音输入+大模型指令解析+机器视觉+机械臂流程打通
在这里插入图片描述
在这里插入图片描述

ps3.移动小车相关文章资源

(1)python做了一个极简的栅格地图行走机器人,到底能干啥?[第五弹]——解锁蒙特卡洛定位功能-CSDN博客
(2) 对应python资源:源码地址
在这里插入图片描述
在这里插入图片描述

(3)python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶(上篇)_agv编程-CSDN博客
(4)python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶(下篇)_agv路线规划原则python-CSDN博客
对应python及仿真环境资源:源码链接
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ps3.wifi小车控制相关文章资源

web端配套资源源代码已经上传(竖屏版),下载地址
仿真配套资源已经上传:下载地址
web端配套资源源代码已经上传(横屏版),下载地址

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机智新语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值