一张图片知道你在哪?7B模型超越一流开闭源模型!

编辑:深度学习自然语言处理 公众号

Github:https://github.com/TheEighthDay/SeekWorld
Huggingface模型 (SeekWorld-7B):https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS
Huggingface数据集 :https://huggingface.co/datasets/TheEighthDay/SeekWorld

一、有关SeekWorld

受 DeepSeek-R1 的启发,它表明大语言模型(LLMs)能够通过基于规则的强化学习(RL)显著提升数学逻辑推理能力,随后还能泛化到更通用的逻辑推理能力,包括反思、验证、总结等。

在多模态领域,一些方法尝试通过基于图像的数学任务、图表分析任务以及逻辑谜题任务来激活推理能力,而另一些方法则专注于通过传统的检测任务(如目标检测、计数和分割)来提升感知能力。

我们提出了一项新任务:地理定位推理。这项任务在自然地提供准确位置标签的同时,要求模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,最终实现位置的确定。为此,我们专门构建了一个用于地理定位的基于规则的强化学习数据集:
SeekWorld(https://huggingface.co/datasets/TheEighthDay/SeekWorld)。

我们基于 Qwen2.5-7B-VL-Instruct 训练了一个专门的模型:
SeekWorld-7B(https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS)。

目前,该模型超过了一众开闭源一流模型,包括不具备推理能力的(Doubao-1.5-vision-pro-32k-250115、GPT4o-240806)和具备推理能力的(QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21)。

二、举个例子感受一下SeekWorld的魅力

下面是一张图片,我们通过SeekWord-7B模型的推理得到的结果:

<思考>
这张图片描绘了一个传统的中国街道场景,有木质建筑、红灯笼以及墙上的汉字。建筑的结构和风格,再加上红灯笼和文字等中国传统元素的存在,表明这是中国一个村庄或城镇的场景。这些建筑的设计和布局具有中国古代城镇的特点,这些城镇往往具有历史意义,并且以其保存完好的传统建筑而闻名。
汉字的存在以及建筑风格表明,这里很可能在中国,具体来说是在一个传统建筑较为常见的地区。建筑风格和整体氛围可能暗示着像丽江这样的地方,丽江以其保存完好的古城而闻名,它位于云南省,该省以其丰富多样的文化遗产和历史遗迹而著称。
鉴于其建筑风格和文化元素,合理推断这张图片来自中国一个有着丰富历史和传统建筑的地区。建筑的独特风格以及中国传统元素的存在表明,这里可能是云南省的一部分,云南省以其历经岁月保存下来的古镇和村庄而闻名。
因此,基于建筑风格和文化元素,合理得出结论:这张图片拍摄于中国,具体来说是在中国的一级行政区之一 —— 云南省。
</ 思考 >
< 答案 >
中国,云南
</ 答案>

这里正是云南的沙溪古镇,模型给出了详细推理的流程,并定位到了云南~

我们制作了一个demo网站,上传你的图片来试试吧!:
HF Demo(https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP)

三、PK开闭源的一流模型

Model

Global-Test

China-Test

Overall Accuracy

Bigger model

🔒GPT4o-240806

56.5

30.98

42.40

🔒Doubao-1.5-vision-pro-32k-250115

43.75

39.55

41.42

🔒🧠Gemini-2.0-flash-thinking-exp-01-21

56.25

29.47

41.42

🧠QvQ-72B-max-2025-03-25

48.13

30.98

38.63

Qwen-2.5-32B-VL

38.12

23.92

30.26

Small model (7B)
SeekWorld-7B

 (ours)

59.6933.0044.91

Qwen-2.5-7B-VL + RL (Reinforce++)

51.25

30.98

40.02

Qwen-2.5-7B-VL + SFT

37.19

24.43

30.13

Qwen-2.5-7B-VL

33.44

23.68

28.03

Qwen-2.5-7B-VL + CoT

25.31

20.40

22.59

带有🔒标识的模型是专有闭源模型,而带有🧠标识的模型则具备增强的推理能力。

与直接在SeekWorld数据集上进行强化学习(RL)训练相比,我们的SeekWorld-7B模型尝试了两项优化。其中,难度采样有效地提高了测试的准确率。另一方面,长度激励仅增加了推理过程的长度,而没有提高准确率。不过幸运的是,它能更好地展示中间推理过程。我们也在尝试使用GRM进行更好的过程监督。

  • 难度采样:我们在训练集中对不同难度级别的问题进行了采样。具体来说,由于数据集中难题数量相对较多(5655道),我们将简单题(1945道)和中等难度题(941道)的数量翻倍,分别扩充到3890道和1882道。

  • 长度激励:我们尝试引入了一种鼓励增加推理长度的奖励机制。奖励值设定为字符数量乘以0.001 ,奖励值最高为1.0。

四、SeekWorld数据集已经开源

数据集包含以下特点:

  • 全球多样化采样:涵盖了来自世界各地广泛的场景集合,确保模型能够对多样的文化、地形和背景环境实现强大的泛化能力。

  • 针对rule-based RL优化的图像-标签对:对于图片清洗了包含位置信息的水印,对于地理坐标标签增加了一级行政规划区的别名,防止模型被错误惩罚。

  • 分层难度架构:包含三个不同的推理难度层级——简单、中等和困难,以逐步挑战和评估模型在地理定位方面的能力。

五、贡献SeekWorld测试集

我们热烈欢迎参与到SeekWorld项目中来!如果您对地理定位推理感兴趣,您可以向我们发送一张具有挑战性的测试图片,以此来帮助我们构建一个更全面的评估数据集。 贡献方式如下:

  1. 拍摄一张带有地理线索但又不是很容易就能识别出位置的照片(例如,街景、生活照片、建筑、自然景观)。

  2. 确保该图片对应的是一个真实的地点(例如,具体到国家和一级行政区)。如果可能的话,请同时提供该地点的经纬度。并确保图片中不包含任何个人信息。

  3. 请在邮件主题中注明:[SeekWorld Crowd Contribution]。然后将图片发送至我们的邮箱地址:tikibi001@163.com 。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值