前面学习了一下论文:Improved Field-Based Soybean Seed Counting and Localization with Feature Level Considered
该论文的模型原型由CrowdCounting-P2PNet改进而来
这里先复现一下CrowdCounting-P2PNet模型,然后再学习P2PNet-Soy模型
一.CrowdCounting-P2PNet
在计算机视觉顶会 ICCV 2021 上,腾讯优图实验室提出了点对点网络(Point-to-Point Network,P2PNet),业界首创直接预测人头中心点的人群计数新范式,能够同时实现人群个体定位和人群计数,CrowdCounting-P2PNet实际上是一个纯粹基于点的框架,用于人群的计数和定位
(1)CrowdCounting-P2PNet源码
CrowdCounting-P2PNet源码地址:GitHub - TencentYoutuResearch/CrowdCounting-P2PNet: The official codes for the ICCV2021 Oral presentation "Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework"
论文下载链接:https://arxiv.org/abs/2107.12746
(2)CrowdCounting-P2PNet框架
<1>CrowdCounting-P2PNet提出的背景
人群计数任务旨在估计给定图像中特定区域的总人数,在城市管理、公共安全方面有着重要的实用价值。人群计数任务可以被视为特殊场景下的人头检测任务,其特殊之处在于以下三点:
- 主要面向极小尺度人头(通常小于 30 像素);
- 人头分布密集,存在严重的重叠遮挡问题;
- 受限于极高的标注成本,只能提供人头中心点标注且数据匮乏。
<2>主流方案与P2PNet对比
方案一(基于密度图回归的方法):人群分布密度图是根据人头中心点标注来生成的,对密度图进行积分即可获得总人数。这类方法的缺点是:在只有人头中心点标注的情况下,生成的密度图并不准确,而且无法提供人群中个体的位置信息,特别是对于拥挤区域。此类方法仍是目前最主流的方案。
方案二(基于估计框的检测方法):先根据人头中心点标注估计人头框,然后使用人头检测技术来定位每个人头。这类方法的缺点则是难以准确地估计人头框,导致模型优化错误和预测后处理(非极大值抑制)失效。目前仅有少数方法采用这种方案。
本研究采用的方案(P2PNet):本方案从一个全新视角来审视人群计数这个任务,旨在直接解决其超任务:人群个体定位。该任务不仅能给出指定区域的人头总数,还能直接给出人群中每个个体的具体位置,从而便于后续更高阶的人群分析任务(人群行为分析、异常行为检测以及人群跟踪等)。针对这个超任务,腾讯优图实验室提出了点对点网络(Point-to-Point Network,P2PNet),能直接以人头中心点作为训练,并直接输出预测的人头中心点坐标,是业内首个能直接预测人头中心点的算法,有望开启人群计数相关研究的新范式。
<3>技术创新
本研究的主要贡献有以下两点:
- 业界首次提出了一个完全基于点的框架,同时实现人群个体定位和人群计数任务。该框架所能提供的点级别人群个体位置信息,是下游高阶人群分析任务的基础。同时,与该框架相契合,研究者提出了密度归一化平均精度(nAP)的评测指标,该指标是一个综合性的指标