人群计数之SASNet论文笔记-CSDN博客

本文介绍了一种解决图像中人群计数问题的方法，该方法利用多尺度特征表示来应对人头尺寸变化大的挑战。通过选择合适的特征层并结合加权平均策略，实现了更准确的人群密度估计。此外，提出了金字塔区域感知损失函数以优化难以学习的像素。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇博客仅作为个人学习的论文笔记使用，如有侵权，请联系删除

原文链接
 github地址

To Choose or to Fuse? Scale Selection for Crowd Counting

文章目录

To Choose or to Fuse? Scale Selection for Crowd Counting
一、主要针对问题及解决手段
二、其它问题or创新点
三、网络结构
四、损失函数

一、主要针对问题及解决手段

论文主要针对的问题：人头尺寸在图片中变化大的问题（人体在图片中远小近大问题）；
解决方法：充分利用基于multi-level结构的网络中的多尺度（multi-scale）特征表示。具体地，由于每一层的特征图都有一个最擅长预测的特定的尺度范围，则可以通过一个选择策略来选择合适的特征层，从而使得单个patch内的计数误差尽可能地小，同时作者还利用加权平均来将其它的特征层也考虑了进来，用于平滑离散的特征图和连续的尺度变化之间的差异；
上述尺度和特征层之间的内部对应关系，可以使用SASNet来自主地学习。

二、其它问题or创新点

由于图像中局部范围内的头部尺寸大致相同，故可以逐patch地选择特征层；
由于传统的像素级别损失函数忽略了patch内部不同像素的不同学习难度，故论文给出了一种金字塔区域感知损失函数（PRA Loss）；具体地，它会在一个patch中迭代地选择最困难（即最大高估/最小低估）的子区域，直到到达像素级别，此时将该像素视为最困难像素，做进一步优化；
此外，传统的损失函数强调的是精确的像素级别损失，而常见的评估准则（如MAE/MSE）只关注最终的计数误差。PRA Loss考虑了像素和区域之间的包含关系，有助于平滑训练目标和评估指标之间的不连续性。

三、网络结构

SASNet网络结构

使用 VGG16的前 13 个卷积层作为编码器网络，共有五个特征层级，下采样步长分别为1、2、4、8、16，对应的特征图记为 $V_1$ ~ $V_5$ ；
$P_1$ ~ $P_5$ 为解码阶段的多尺度特征图表示，每个 $P_i$ 由 $V_i$ 和 $P_{i+1}$ 生成；为使 $P_{i+1}$ 和 $V_i$ 尺寸匹配，需要对 $P_{i+1}$ 进行上采样，上采样方式为近邻插值法；正如上文所说，由于感受野固定，因此只在某些特定尺寸下表现良好；
抛开置信图预测分支Confidence Head不谈，直接将 $P_1$ ~ $P_5$ 分别输入密度分支Density Head来得到五张密度图 $D_1$ ~ $D_5$ ，再在通道维度上对此五张密度图进行拼接，得到Density Maps；
抛开密度预测分支Density Head不谈，直接将 $P_1$ ~ $P_5$ 分别输入置信分支Confidence Head来得到五张置信图 $C_1$ ~ $C_5$ ，（特别地，对于输入的 $P_i$ 首先进行下采样，使其尺寸变为原始输入图片尺寸的 $\frac{1}{k}$ ，这样 $C_i$ 中的每个像素值实际代表着 $P_i$ 中对应位置的一个 $\times k$ 大小的patch的置信度），再在通道维度上对此五张置信图进行拼接，得到Confidence Maps；
对Confidence Maps在通道维度上进行Softmax操作，使得五张二维的置信图在每个对应位置像素上的值之和都为1（为下一步的加权平均做铺垫）；
对Confidence Maps和Density Maps对应位置逐像素地相乘后，再在通道维度上求和（由此完成加权平均操作，当然，此步操作的前提是两者尺寸匹配，故需要使用近邻插值法将 $C_i$ 插值到与 $D_i$ 相同大小），得到最终的密度图预测 $D_{j,k}^{est}$ ，定义如公式（1）所示： $D_{j,k}^{est}=\sum_i^5 ({C_{i,j,k}}' \cdotp D_{i,j,k}) \tag{1}$
式中 $D_{j,k}^{est}$ 表示最终的密度预测图 $D^{est}$ 的 $(j, k)$ 位置处的密度估计值
最合适的特征层被认为是计数误差最小的特征层。在推理过程中，拥有最大置信度分数的为最合适的特征层，即对于 $(m, n)$ 处的patch，选择置信度分数最大的特征层 $j=\text{arg min}_{i\in [1,5]}C_{i,m,n}$ 作为最合适的特征层。

四、损失函数

五个Density Heads均由同一张GT图监督，即输入图片的原始GT图 $D^{gt}$ ，损失函数定义为Euclidean Distence损失函数，如公式（2）所示：
$\mathcal{L_{den}}=\sum_i^5\Vert D_i - D^{gt}\Vert_2^2 \tag{2}$
为了监督Confidence Heads，论文利用 $D_i$ 和 $D^{gt}$ 之间的比较，构建出了 $C_i$ 的GT图 $C^{gt}_i$ ，构建示意图如下图所示：

上图选取了五张Density maps中的三张作为示例，首先作者将 $D_i$ 划分成一系列互不重叠的大小为 $\times k$ 的patches，然后便可以得到一张计数图 $M_i$ ，图中每个像素值等于 $D_i$ 中相应位置patch的内部密度和；类似地，也可利用 $D^{gt}$ 构建每张 $M_i$ 的GT图 $M^{gt}$ ；最后通过公式（3）给出 $C^{gt}_i$ ：
$C^{gt}_{i,m,n} =\begin{cases} 1,& \text{if $\mathop{\arg\min}\limits_{l \in [1,5]} | M_{l,m,n} - M_{m,n}^{gt} |$ = $i$} \\ 0,& \text{if $\mathop{\arg\max}\limits_{l \in [1,5]} | M_{l,m,n} - M_{m,n}^{gt} |$ = $i$} \\ -1,& \text{otherwise} \end{cases} \tag{3}$
上式中， $C^{gt}_{i,m,n}$ 表示第 $i$ 个特征层中位于 $(m, n)$ 处的patch的真实标签， $M_{l,m,n}$ 表示第 $l$ 个特征层中位于 $(m, n)$ 处的patch的内部密度和， $M^{gt}_{m,n}$ 表示 $D^{gt}$ 中位于 $(m, n)$ 处的patch的内部密度和。对公式（2）的直观解释就是，离 $M^{gt}_{m,n}$ 最远的对应patch的值设置为1，离 $M^{gt}_{m,n}$ 最接近的对应patch的值设置为0，其它情况设置为-1，在训练阶段，值为-1的patch被忽略；
由此导出损失函数 $\mathcal{L_{ce}}$ 和 $\mathcal{L_{conf}}$ ，两者定义为公式（4）和公式（5）：
$\mathcal{L_{ce}}(C_{i,m,n}, C^{gt}_{i,m,n}) = C^{gt}_{i,m,n} \cdotp \text{log}(C_{i,m,n}) + (1- C^{gt}_{i,m,n})\cdotp (1-\text{log}(C_{i,m,n})) \tag{4}$
$\mathcal{L_{conf}} = \frac {\sum_{i=1}^5 \sum_{(m,n)\in \mathcal{K_i}}\mathcal{L_{ce}}(C_{i,m,n}, C^{gt}_{i,m,n})} {\sum_{i=1}^5 |\mathcal{K}_i|} \tag{5}$
上式中， $\mathcal{K_i}$ 在第 $i$ 层特征图中置信标签为0或者1的patches集合，而 $|\mathcal{K_i}|$ 则代表该集合中patch的数量； $\mathcal{L_{ce}}(C_{i,m,n}, C^{gt}_{i,m,n})$ 表示 $C_{i,m,n}$ 和 $C^{gt}_{i,m,n}$ 之间的交叉熵损失； $\mathcal{L_{conf}}$ 表示Confidence Branch上总损失；
上文提到，patch 内的像素具有不同的学习难度，并产生不同的计数误差。论文定义“困难的像素”为高估patch中的最高估子区域，以及低估patch中的最低估子区域。以高估区域为例，将一个高估patch均分为四个相同大小的、互不重叠的子区域，那么这四个子区域中至少有一个是高估区域，取其中最高估的子区域为下一步的迭代区域（而高估patch中的低估子区域有助于缓解父区域的高估问题，因此在PRA Loss中被忽略，仅由其它Loss函数进行常规优化），直到到达像素水平。最终选择的像素被认为是整个图像中最难的像素，这些像素通过 PRA Loss 进一步优化；搜索过程的可视化如下图所示：

上述搜索过程最开始的输入为 $D^{est}$ ，首先将其划分成四个相同大小的、互不重叠的patch，每一个patch要么高估要么低估，然后即可按照上述流程进行迭代搜索（高估patch中寻找高估子区域，低估patch中寻找低估子区域；而patch中的其它子区域则被忽略）。在找到最困难的像素之后，PRA Loss损失函数定义如公式（6）所示：
$\mathcal{L}_{pra}=\Vert D^{est}_{p\in \mathcal{G}}-D^{gt}_{p\in \mathcal{G}} \Vert_2^2 + \gamma \Vert D^{est}_{p\in \mathcal{H}}-D^{gt}_{p\in \mathcal{H}} \Vert_2^2 \tag{6}$
式中 $p$ 表示最终预测图 $D^{est}$ 中的像素， $\mathcal{G}$ 表示 $D^{est}$ 中的所有像素集合，而 $\mathcal{H}$ 则表示在 $D^{est}$ 中搜索到的所有困难像素集合， $\gamma$ 表示权重因子。
最终的损失函数定义如公式（7）所示：
$\mathcal{L}_{final}=\mathcal{L}_{den}+\lambda \mathcal{L}_{conf}+\mathcal{L}_{pra} \tag{7}$
本篇博客仅作为个人学习的论文笔记使用，如有侵权，请联系删除