【论文阅读】Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM

最新推荐文章于 2025-05-29 12:04:54 发布

万里守约

最新推荐文章于 2025-05-29 12:04:54 发布

阅读量812

点赞数 28

分类专栏：论文阅读文章标签：论文阅读图像处理无监督深度学习

本文链接：https://blog.csdn.net/qq_45625499/article/details/148221281

版权

论文阅读专栏收录该内容

18 篇文章

订阅专栏

文章目录

导言
1、论文简介
2、论文主要方法
3、论文针对的问题
4、论文创新点
总结

导言

这篇论文提出了一种基于自适应分辨率的无监督人群计数与定位方法。该方法以广泛训练的“Segment-Everything-Everywhere Model（SEEM）”为基础，通过引入自适应分辨率策略，有效提升在密集、遮挡和尺度变化大的场景中的分割表现。作者还采用高斯混合模型（GMM）对人头位置进行准确预测，从而获得更可靠的点式伪标签。结合设计的鲁棒损失函数和迭代伪标签生成机制，该方法无需大量标注数据，即可实现精准的人群计数与定位。实验结果表明，该方法在多个公共数据集上均优于现有无监督方法，表现出极强的实用性和推广潜力，极大地推动了无监督人群分析技术的发展。

1、论文简介

论文题目：
Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM

研究领域：
无监督图像分割；人群计数

作者单位：
哈尔滨工业大学、香港城市大学

论文链接：
https://doi.org/10.1007/978-3-031-72998-0_27

论文来源：
ECCV

2、论文主要方法

自适应分辨率的SAM（AdaSEEM）

该方法对基础的Segmentation Anything Model（SAM）进行了改进，提出“自适应分辨率”策略。通过在不同的密集区域自动调整输入图像的分辨率，有效增强了模型对小尺度和遮挡密集人群的分割能力。具体来说，模型会对高密度区域进行放大，从而提升对微小或被遮挡个体的识别效果。
在这里插入图片描述

基于GMM的人头点定位

为提高密集人群中头部位置的检测精度，论文引入了高斯混合模型（GMM）对检测到的人体遮罩分布进行建模。GMM能够适应不同形状和大小的人头，准确地估算出头部中心点，为后续的点式伪标签提供可靠依据。
在这里插入图片描述

伪标签的生成与增强

采用迭代策略，结合训练好的计数网络预测的点位置，在密集区域生成额外的伪标签。利用点内容作为提示，启用增强版SEEM模型，识别更多未被检测到的个体。每轮迭代都能优化伪标签质量，从而逐步提高整体检测和计数性能。
在这里插入图片描述

鲁棒损失函数

设计了结合遮挡与背景信息的鲁棒损失函数，有效排除不确定区域，确保模型专注于高信心区域的密度和位置估计。该损失策略提升了在没有手工注释的条件下的检测和计数精准度。
在这里插入图片描述

训练流程与迭代优化

整体流程包括利用生成的伪标签训练计数网络，使用上述鲁棒损失优化，之后通过网络预测结果，进一步完善伪标签。多轮迭代不断增强伪标签的全面性和准确性，从而实现无监督的人群计数与定位。

3、论文针对的问题

无监督人群计数的挑战

传统的人群计数方法大多依赖大量手动标注的训练数据，这在密集人群场景中尤其困难和耗时。如何在没有大量标注的情况下，实现准确的人群数量估计成为关键问题。

密集和遮挡场景下的分割与检测困难

在高密度人群中，由于遮挡、尺度变化大、小尺度个体难以被准确分割和检测，导致现有模型效果受限。尤其是密集场景容易出现遗漏或者错误检测。

缺乏有效的无监督伪标签生成机制

既没有标注数据，也难以可靠地从未标注场景中提取目标信息，导致无监督模型难以达到较高的精度。如何利用现有的基础模型（如SAM和SEEM）自动生成高质量的伪标签，成为改善目标识别和计数的关键。

需要适应不同场景变化

不同场景中的密度、尺度和遮挡情况差异巨大，单一模型难以同时应对多样场景，需设计一种具有良好适应性的机制（如自适应分辨率策略）以提升泛化能力。

4、论文创新点

自适应分辨率的描述性增强模型（AdaSEEM）：提出结合区域高变尺度调整的方法，有效提升模型在密集和复杂场景中的分割效果。

基于模型自我迭代优化的伪标签生成策略：设计了利用已训练计数网络的预测结果不断迭代优化伪标签的机制，提高伪标签的准确性和完整性。

鲁棒训练损失设计：引入专门的鲁棒损失函数，有效排除错误区域，提升训练在无监督环境下的稳定性和可靠性。

总结

本文提出了一种新颖的无监督密集人群计数与定位方法，充分利用大尺度预训练模型的泛化能力，通过自适应区域策略解决了传统方法在密集场景中面临的遮挡和尺度变化问题。该方法通过引入迭代式的伪标签优化机制，有效提升了标注的完整性和模型的检测能力，同时设计了鲁棒的训练损失以确保学习过程的稳定性和准确性。实验结果表明，该方案不仅在多项指标上超越了现有无监督方法，还在性能上接近一些半监督和有监督的技术，为无需人工标注的大规模场景下人群计数提供了一种高效、可靠的解决方案，展现出广阔的应用前景。