一张图片知道你在哪？7B模型超越一流开闭源模型！

zenRRan

于 2025-04-17 13:52:12 发布

阅读量59

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247537701&idx=2&sn=25edd2c294a6b3ed2e9cf75c624d27a9&chksm=ea05d32b3a2861966f8b8238e58963ae30a4d7718c95414eff85f24bfcef4e42f92e8da26ef2&scene=126&sessionid=0

版权

编辑：深度学习自然语言处理公众号

Github：https://github.com/TheEighthDay/SeekWorld
Huggingface模型 (SeekWorld-7B)：https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS
Huggingface数据集：https://huggingface.co/datasets/TheEighthDay/SeekWorld

一、有关SeekWorld

受 DeepSeek-R1 的启发，它表明大语言模型（LLMs）能够通过基于规则的强化学习（RL）显著提升数学逻辑推理能力，随后还能泛化到更通用的逻辑推理能力，包括反思、验证、总结等。

在多模态领域，一些方法尝试通过基于图像的数学任务、图表分析任务以及逻辑谜题任务来激活推理能力，而另一些方法则专注于通过传统的检测任务（如目标检测、计数和分割）来提升感知能力。

我们提出了一项新任务：地理定位推理。这项任务在自然地提供准确位置标签的同时，要求模型在感知视觉信息的过程中，对视觉语义中的高级逻辑关系进行推理，最终实现位置的确定。为此，我们专门构建了一个用于地理定位的基于规则的强化学习数据集：
SeekWorld(https://huggingface.co/datasets/TheEighthDay/SeekWorld)。

我们基于 Qwen2.5-7B-VL-Instruct 训练了一个专门的模型：
SeekWorld-7B(https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS)。

目前，该模型超过了一众开闭源一流模型，包括不具备推理能力的（Doubao-1.5-vision-pro-32k-250115、GPT4o-240806）和具备推理能力的（QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21）。

二、举个例子感受一下SeekWorld的魅力

下面是一张图片，我们通过SeekWord-7B模型的推理得到的结果：

<思考>
这张图片描绘了一个传统的中国街道场景，有木质建筑、红灯笼以及墙上的汉字。建筑的结构和风格，再加上红灯笼和文字等中国传统元素的存在，表明这是中国一个村庄或城镇的场景。这些建筑的设计和布局具有中国古代城镇的特点，这些城镇往往具有历史意义，并且以其保存完好的传统建筑而闻名。
汉字的存在以及建筑风格表明，这里很可能在中国，具体来说是在一个传统建筑较为常见的地区。建筑风格和整体氛围可能暗示着像丽江这样的地方，丽江以其保存完好的古城而闻名，它位于云南省，该省以其丰富多样的文化遗产和历史遗迹而著称。
鉴于其建筑风格和文化元素，合理推断这张图片来自中国一个有着丰富历史和传统建筑的地区。建筑的独特风格以及中国传统元素的存在表明，这里可能是云南省的一部分，云南省以其历经岁月保存下来的古镇和村庄而闻名。
因此，基于建筑风格和文化元素，合理得出结论：这张图片拍摄于中国，具体来说是在中国的一级行政区之一 —— 云南省。
</ 思考 >
< 答案 >
中国，云南
</ 答案>

这里正是云南的沙溪古镇，模型给出了详细推理的流程，并定位到了云南~

我们制作了一个demo网站，上传你的图片来试试吧！：
HF Demo(https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP)

三、PK开闭源的一流模型

Model	Global-Test	China-Test	Overall Accuracy
Bigger model
🔒GPT4o-240806	56.5	30.98	42.40
🔒Doubao-1.5-vision-pro-32k-250115	43.75	39.55	41.42
🔒🧠Gemini-2.0-flash-thinking-exp-01-21	56.25	29.47	41.42
🧠QvQ-72B-max-2025-03-25	48.13	30.98	38.63
Qwen-2.5-32B-VL	38.12	23.92	30.26
Small model (7B)
SeekWorld-7B (ours)	59.69	33.00	44.91
Qwen-2.5-7B-VL + RL (Reinforce++)	51.25	30.98	40.02
Qwen-2.5-7B-VL + SFT	37.19	24.43	30.13
Qwen-2.5-7B-VL	33.44	23.68	28.03
Qwen-2.5-7B-VL + CoT	25.31	20.40	22.59

带有🔒标识的模型是专有闭源模型，而带有🧠标识的模型则具备增强的推理能力。

与直接在SeekWorld数据集上进行强化学习（RL）训练相比，我们的SeekWorld-7B模型尝试了两项优化。其中，难度采样有效地提高了测试的准确率。另一方面，长度激励仅增加了推理过程的长度，而没有提高准确率。不过幸运的是，它能更好地展示中间推理过程。我们也在尝试使用GRM进行更好的过程监督。

难度采样：我们在训练集中对不同难度级别的问题进行了采样。具体来说，由于数据集中难题数量相对较多（5655道），我们将简单题（1945道）和中等难度题（941道）的数量翻倍，分别扩充到3890道和1882道。
长度激励：我们尝试引入了一种鼓励增加推理长度的奖励机制。奖励值设定为字符数量乘以0.001 ，奖励值最高为1.0。