摘要
经典做法是在整张图上采用同样的滤波器,通过估计局部比例来补偿透视失真。
2、相关工作
早期的人群计数工作主要采取检测方法,即检测出每个头或人体,然后计数。但是,对于拥挤的场景来说,遮挡会使检测变得很困难,因此,大部分情况下,检测方法就被密度估计图替代,即:训练一个回归器,对图片中的不同部分估计密度图,然后综合各个密度图得到原始图片的人数,这种方法法主要利用高斯函数或随机森林方法。尽管这些方法主要依赖于低级特征,但其效果挺好。现在,大家主要基于CNN方法来回归密度图。
我们要测量的人群密度是地面上单位面积内人的数量。
3、1:尺度感知上下文特征
论文把人群计数问题转化为人群密度回归问题。给定一个含有N张训练图片的数据集,对应的ground-truth密度图为
论文目标是学习一个具有参数的非线性映射F,将输入图片
映射为一个估计的密度图
使得估计值与真实值
在
范数下距离足够近。
与传统做法相同,前面10层为预训练的VGG-16网络,给定一张图片I,输出为
(1)
论文把f_v当做基础特征。
但是,具有一定的局限性,因为其在整张图片上具有相同的感受野。为了客服这个缺陷,论文用特征金字塔来计算尺度特征,在
的基础上,提取多尺度的上下文信息。计算公式为
其中,对每个尺度j, 将VGG特征平均为k(j)*k(j)块。F_j是一个卷即核尺寸=1的卷积网络,它将不同通道的特征,在不改变维度的情况下啊,连接在一起。论文这样做的原因是SPP保证了每个特征通道的独立性,因此限制了代表权。论文作者证明了若不做