编辑:深度学习自然语言处理 公众号
Github:https://github.com/TheEighthDay/SeekWorld
Huggingface模型 (SeekWorld-7B):https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS
Huggingface数据集 :https://huggingface.co/datasets/TheEighthDay/SeekWorld
一、有关SeekWorld
受 DeepSeek-R1 的启发,它表明大语言模型(LLMs)能够通过基于规则的强化学习(RL)显著提升数学逻辑推理能力,随后还能泛化到更通用的逻辑推理能力,包括反思、验证、总结等。
在多模态领域,一些方法尝试通过基于图像的数学任务、图表分析任务以及逻辑谜题任务来激活推理能力,而另一些方法则专注于通过传统的检测任务(如目标检测、计数和分割)来提升感知能力。
我们提出了一项新任务:地理定位推理。这项任务在自然地提供准确位置标签的同时,要求模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,最终实现位置的确定。为此,我们专门构建了一个用于地理定位的基于规则的强化学习数据集:
SeekWorld(https://huggingface.co/datasets/TheEighthDay/SeekWorld)。
我们基于 Qwen2.5-7B-VL-Instruct 训练了一个专门的模型:
SeekWorld-7B(https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS)。
目前,该模型超过了一众开闭源一流模型,包括不具备推理能力的(Doubao-1.5-vision-pro-32k-250115、GPT4o-240806)和具备推理能力的(QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21)。
二、举个例子感受一下SeekWorld的魅力
下面是一张图片,我们通过SeekWord-7B模型的推理得到的结果:

<思考>
这张图片描绘了一个传统的中国街道场景,有木质建筑、红灯笼以及墙上的汉字。建筑的结构和风格,再加上红灯笼和文字等中国传统元素的存在,表明这是中国一个村庄或城镇的场景。这些建筑的设计和布局具有中国古代城镇的特点,这些城镇往往具有历史意义,并且以其保存完好的传统建筑而闻名。
汉字的存在以及建筑风格表明,这里很可能在中国,具体来说是在一个传统建筑较为常见的地区。建筑风格和整体氛围可能暗示着像丽江这样的地方,丽江以其保存完好的古城而闻名,它位于云南省,该省以其丰富多样的文化遗产和历史遗迹而著称。
鉴于其建筑风格和文化元素,合理推断这张图片来自中国一个有着丰富历史和传统建筑的地区。建筑的独特风格以及中国传统元素的存在表明,这里可能是云南省的一部分,云南省以其历经岁月保存下来的古镇和村庄而闻名。
因此,基于建筑风格和文化元素,合理得出结论:这张图片拍摄于中国,具体来说是在中国的一级行政区之一 —— 云南省。
</ 思考 >
< 答案 >
中国,云南
</ 答案>
这里正是云南的沙溪古镇,模型给出了详细推理的流程,并定位到了云南~
我们制作了一个demo网站,上传你的图片来试试吧!:
HF Demo(https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP)
三、PK开闭源的一流模型
Model | Global-Test | China-Test | Overall Accuracy |
---|---|---|---|
Bigger model | |||
🔒GPT4o-240806 | 56.5 | 30.98 | 42.40 |
🔒Doubao-1.5-vision-pro-32k-250115 | 43.75 | 39.55 | 41.42 |
🔒🧠Gemini-2.0-flash-thinking-exp-01-21 | 56.25 | 29.47 | 41.42 |
🧠QvQ-72B-max-2025-03-25 | 48.13 | 30.98 | 38.63 |
Qwen-2.5-32B-VL | 38.12 | 23.92 | 30.26 |
Small model (7B) | |||
SeekWorld-7B (ours) | 59.69 | 33.00 | 44.91 |
Qwen-2.5-7B-VL + RL (Reinforce++) | 51.25 | 30.98 | 40.02 |
Qwen-2.5-7B-VL + SFT | 37.19 | 24.43 | 30.13 |
Qwen-2.5-7B-VL | 33.44 | 23.68 | 28.03 |
Qwen-2.5-7B-VL + CoT | 25.31 | 20.40 | 22.59 |
带有🔒标识的模型是专有闭源模型,而带有🧠标识的模型则具备增强的推理能力。
与直接在SeekWorld数据集上进行强化学习(RL)训练相比,我们的SeekWorld-7B模型尝试了两项优化。其中,难度采样有效地提高了测试的准确率。另一方面,长度激励仅增加了推理过程的长度,而没有提高准确率。不过幸运的是,它能更好地展示中间推理过程。我们也在尝试使用GRM进行更好的过程监督。
难度采样:我们在训练集中对不同难度级别的问题进行了采样。具体来说,由于数据集中难题数量相对较多(5655道),我们将简单题(1945道)和中等难度题(941道)的数量翻倍,分别扩充到3890道和1882道。
长度激励:我们尝试引入了一种鼓励增加推理长度的奖励机制。奖励值设定为字符数量乘以0.001 ,奖励值最高为1.0。
四、SeekWorld数据集已经开源
数据集包含以下特点:
全球多样化采样:涵盖了来自世界各地广泛的场景集合,确保模型能够对多样的文化、地形和背景环境实现强大的泛化能力。
针对rule-based RL优化的图像-标签对:对于图片清洗了包含位置信息的水印,对于地理坐标标签增加了一级行政规划区的别名,防止模型被错误惩罚。
分层难度架构:包含三个不同的推理难度层级——简单、中等和困难,以逐步挑战和评估模型在地理定位方面的能力。

五、贡献SeekWorld测试集
我们热烈欢迎参与到SeekWorld项目中来!如果您对地理定位推理感兴趣,您可以向我们发送一张具有挑战性的测试图片,以此来帮助我们构建一个更全面的评估数据集。 贡献方式如下:
拍摄一张带有地理线索但又不是很容易就能识别出位置的照片(例如,街景、生活照片、建筑、自然景观)。
确保该图片对应的是一个真实的地点(例如,具体到国家和一级行政区)。如果可能的话,请同时提供该地点的经纬度。并确保图片中不包含任何个人信息。
请在邮件主题中注明:[SeekWorld Crowd Contribution]。然后将图片发送至我们的邮箱地址:tikibi001@163.com 。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦