354篇参考文献！史上最详尽综述：视觉定位任务十年发展系统性回顾

PaperWeekly

于 2025-01-22 12:02:57 发布

阅读量256

点赞数

文章标签：人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247698527&idx=3&sn=11b33bef39a12e7e49d9b2154a975408&chksm=97c161ff16842e37b6c0a26101a0110066ccf8eae4fc08e67f6083534265ad71547fe17e2c2e&scene=126&sessionid=0

版权

27 页综述，354 篇参考文献！史上最详尽的视觉定位综述，内容覆盖过去十年的视觉定位发展总结，尤其对最近 5 年的视觉定位论文系统性回顾，内容既涵盖传统基于检测器的视觉定位，基于 VLP 的视觉定位，基于 MLLM 的视觉定位，也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

论文题目：

Towards Visual Grounding: A Survey

工作内容：

视觉定位（Visual Grounding）任务十年发展系统性回顾

论文链接：

https://arxiv.org/pdf/2412.20206

代码/仓库链接：

https://github.com/linhuixiao/Awesome-Visual-Grounding

摘要

视觉定位（Visual Grounding）也被称为指代表达文本理解（Referring Expression Comprehension）和短语定位（Phrase Grounding）。它涉及根据给定的文本描述在图像中定位自然数量的特定区域。

该任务的目标是模拟社会对话中普遍存在的指代关系，使机器具有类似人类的多模态理解能力。因此，视觉定位在各个领域有着广泛的应用。然而，自 2021 年以来，视觉定位取得了重大进展，比如，基于定位的预训练、定位多模态大语言模型、广义视觉定位、多图片定位、千兆像素定位等新概念不断涌现，带来了许多新的挑战。

在本综述中，我们首先回顾了视觉定位的发展历史，并概述了基本的背景知识，包括视觉定位的基本概念和评估指标。我们系统地跟踪和总结了当前视觉定位的发展，并精心整理了各种已有的设置，并建立了这些设置的精确定义，以规范未来的研究并确保不同方法之间公平的比较。

此外，我们深入讨论了几个高级话题，并强调了视觉定位的许多应用。在数据集部分，我们编制了当前相关数据集的列表，同时在 RefCOCO/+/g 系列数据集上进行了公平的比较分析，并提供了最终的性能预测，以启发未来新的标准测试基准的提出。

最后，我们总结了视觉定位当前所面临的挑战，并为未来的研究提出有价值的方向，这可能为后续的研究人员提供启发。本综述通过提取常见的技术细节的方式进行叙述，进而以涵盖过去十年中每个子主题的代表性工作。

据我们所知，本文是目前视觉定位领域最全面的综述。本文不仅使适用视觉定位的入门研究者，也适用于资深的研究人员用于跟踪最新的研究进展。

综述流程

在本综述中，本文在第 1 章简要地回顾了视觉定位的发展历史和当前存在的问题。在第 2 章中，我们将介绍背景知识，包括任务定义、评价标准和强相关的研究领域。

然后，在第 3 章中，我们将从任务设置的视角出发，分别从全监督、弱监督、半监督、无监督、零样本、广义视觉定位新型设置等 6 个方面对当前的研究进行系统性回顾，并比较了不同任务设置下基准测试的结果。特别是全监督设置，其作为主流的设置将会在第 3 章中进行重点介绍。

随后，我们在第 4 章介绍了经典的数据集和新型数据集。最后，我们在第 5 章指出当前的挑战和未来的发展方向，并在第 6 章中进行了总结。

贡献

(i) 本文是近五年来第一个系统跟踪和总结近十年视觉定位发展的综述。通过提取常见的技术细节，本综述涵盖了每个子主题中最具代表性的工作。

(ii) 本文根据视觉定位中出现的各种各样的设置做了系统的梳理，并对各种设置做了严格的定义，用以规范后续视觉定位的研究，以便获得公平公正的比较。

(iii) 本文对近些年的数据集进行了整理，并对视觉定位中五个经典的数据集进行了极限预测，以启发新的标准基准的出现。

(iv) 本文对当前的研究难点进行了总结，并对后续的视觉定位的研究提供了有价值的研究方向，用以启发后续研究者的思考。

(v) 据我们所知，这篇综述是目前在视觉定位领域最全面的综述。作者希望本文不仅可以助力于新手入门 Grounding，也希望可以帮助有一定研究基础的人对当前的研究进行梳理，使他们能够跟踪并对最新的进展保持了解。

最后，由于视觉定位领域正在迅速发展，本文可能不可能跟上所有最新的发展。作者欢迎研究人员与他们联系，与他们分享在这一领域的新发现，以便本文可跟踪最新进展。这些新的工作将被纳入修订版本并进行讨论。同时作者也会更新和维护论文的项目仓库：

https://github.com/linhuixiao/Awesome-Grounding

▲ 图1. 视觉定位任务简要示意图

▲ 图2. 视觉定位任务近十年发展趋势

▲ 图3. 视觉定位综述论文结构

▲ 图4. 当前主流视觉定位设置差异对比示意图

▲ 图5. 广义视觉定位示意图

▲ 图6. 全监督视觉定位的五种技术路线及近十年发展中的两个主要阶段

▲ 图7. 全监督视觉定位的五种代表性模型框架

▲ 图8. 全监督视觉定位按三种实验设置进行划分的SoTA结果对比

▲ 图9. 传统视觉定位中一阶段和二阶段处理流程对比

▲ 图10. 全监督视觉定位、传统零样本视觉定位和开发词汇零样本视觉定位对比

▲ 图11. NLP 自然语言解析在视觉定位中的应用

▲ 图12. RefCOCO/+/g 数据集差异对比及统计信息

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧