主要记录近几年基于Deep learning的密集人群计数的相关方法
基于detection的人群计数方法
主要通过对行人的detection,然后统计detection的个数。
使用范围:在行人较少时,且图像中行人较明显时。效果较好
限制:无论是anchor base的还是anchor free的检测器,都存在检测最小目标的下限,当图片中目标较小时,基于检测器的计数方法都不适合。
主流方法:请去看相关主流检测器
基于regression counting的方法
主要通过网络去学习图像中特征,然后回归出图片中总人数,与实际图片中的人数构建loss。
优势:相比第一种网络设计的时候更加直面问题。
劣势:可能存在鲁棒性较差的情况,因为其网络学习特征与人的关联性不是强相关,当测试环境变化时,很容易失控,且可解释性也较差。
详细可以去参考文章Deep People Counting in Extremely Dense Crowds
基于density map的方法
近几年开始流行通过构建heat map,去预估feature map中每一个位置其是人点的可能性。主要是参考了分割以及关键点等方面的知识。groundtruth是对标注的人的中心点设置为高斯核的中心,构建一个以其为中心的高斯分布,中心点为1。然后把图片以及所有标注的分布值映射到heat map上面,构建groundtruth的heatmap和预测的heatmap的差值。
优势:相比较基于detection的方法,弱化了在训练时对regression以及classification的需求,加强了对目标是否存在这一现象的表现。相比较基于regression的方法,更具有解释性。
缺点:因为弱化了对regression和classification的需求,导致其对目标的外形的特征不够重视,当场景变化时,其性能会严重弱化。
代表文章Composition Loss for Counting, Density Map Estimation and Localization in Dense Crowds