Single-Image Crowd Counting via Multi-Column Convolutional Neural Network
概要
文章提出了一种根据单张静态图像精确估算人群密度分布和数量的方法。其主要方法是多列卷积神经网络Multi-column Convolutional Neural Network (MCNN),实现从图片到其密度图像的映射。MCNN允许任意大小的输入图像,并通过使用大小各不相同的卷积核,使每一列CNN适应不同的人头大小,以此来实现对任意视角和任意分辨率图像的精确密度估计。另外,作者还收集并标注了一个包含1198张图像和330000个标注点的数据集供训练和测试。
挑战
目前的人群计数算法面临如下问题:
- 许多现有方法需要使用前景分割,但该技术尚不成熟,导致以此为基础的人群计数方法准确度较低。对于没有视角信息的图像来说,几乎不可能完成精确的前景分割,因此需要尽量避免这一步骤。
- 在特定场景下人群的密度和分布都差别极大,因此传统的基于检测的方法效果不佳。
- 由于每张图像中人的大小各不相同,因此需要利用不同尺寸的特征并进行整合,但使用传统方法获取不同尺寸的特征过于困难,所以需要一种能自动提取有效特征的方法。
主要贡献
- 使用三列卷积核尺寸不同的卷积神经网络,使得习得的模型能适应因拍摄角度和分辨率而产生的不同人头大小。
- 使用卷积核为1x1的卷积层代替全连接层,这样模型的输入图像就可以是任意大小,避免了变形,并且可以直接得到最终的密度图像。
- 收集整理了一个新的