重磅！DeepSeek R1方法成功迁移到视觉领域，多模态迎来新突破！

最新推荐文章于 2025-04-14 07:26:50 发布

Amusi（CVer）

最新推荐文章于 2025-04-14 07:26:50 发布

阅读量546

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247616353&idx=3&sn=c3cf15bbe4d2b5c43b4c6d096dc0fb55&chksm=f8087d3ed22e32dacda13d9b3d0786bb3aff79d017679783fbfdccc6c5025641d4b738d07636&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【多模态】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

https://github.com/om-ai-lab/VLM-R1

这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法，靠着 GRPO（Group Relative Policy Optimization）强化学习方法，在纯文本大模型上取得了惊人的效果。

现在，VLM-R1 团队直接把它应用到了视觉语言模型上，打开了一扇新的大门！

VLM-R1 验证结果惊艳

这个项目的团队在 Qwen2.5-VL 的基础上，同时对比了 R1 和传统的 SFT 方法。结果相当惊艳：

1、稳定性拉满：R1 方法在各种复杂场景下都能保持稳定的高性能，这在实际应用至关重要！

2. 泛化能力卓越：更让人震惊的是，在领域外的测试数据上，随着训练步数增加，传统 SFT 模型的性能开始下滑，而 R1 模型却能持续提升！这意味着 R1 方法帮助模型真正 “学会” 了理解视觉内容，而不是简单地记忆！

（训练和测试领域的差异对比）

（泛化性对比，绿线是 VLM-R1，在领域外泛化性显著更优）

3、上手超简单：VLM-R1 项目团队还贴心地提供了完整的训练和评估流程，四步就能开始训练，对开发者十分友好。

小编亲测之后，在此分享一个实际案例，结果让人意外。

图片里展示了一桌子丰盛的美食，包括各种蔬菜、面饼和点心。针对图片，我们向模型提出了一个问题：“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确：

“图片中展示了桌上的各种菜品，包括蔬菜、面饼和点心。从蛋白质含量来看，面饼或面点可能含量最高，因为它们通常由全谷物制成，面粉中含有蛋白质。虽然蔬菜也含有蛋白质，但比起这些主食来说含量较少。”

更厉害的是，它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼！

这种精确的视觉理解能力和推理能力，让人印象深刻！

完美展示了 VLM-R1 在实际应用中的优势：

准确的视觉识别能力
专业的知识推理能力
清晰的文本表达能力

全新思路

作为一个 AI 领域的观察者，VLM-R1 的出现也为开发者和行业提供了许多新的思路，比如：

1、证明了 R1 方法的通用性，不止文本领域玩得转；

2、为多模态模型的训练提供了新思路；

3、或许能够引领一种全新的视觉语言模型训练潮流；

完全开源

最棒的是，这个优秀的项目完全开源！

项目地址：https://github.com/om-ai-lab/VLM-R1

对视觉语言模型感兴趣的同学，强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始！

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

多模态和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-多模态和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看