人头识别与计数_人群计数《LST-CNN》

《Locate, Size and Count: Accurately Resolving People in Dense Crowds via Detection》(2020)

​ 这是一篇利用检测的方法进行人群计数的文章。

贡献及创新点:

  1. 使用检测的方法进行人群计数;
  2. 设计了一个新颖的CNN框架,不同于传统的目标检测器,该方法可以在高分辨率图像上精确定位人头;
  3. 设计了一个与从上到下反馈结构相融合的方案,这使得网络可以联合处理多尺度信息,方便网络更好地定位人头;
  4. 在仅有点标注信息的情况下,可以预测每个人头的bounding box;
  5. 设计了一个新的winner-take-all的loss,有利于在高分辨率的图像上进行训练。

方法介绍

LST-CNN是一个端到端的单阶段的方法。LST-CNN可以同时处理多个多尺度信息并在多个分辨率图像上进行预测,多个分辨率图像上的输出构成最终的预测结果。LST-CNN的结构图如下,在训练时,LST-CNN对GWTA训练阶段生成的伪ground truth进行像素级分类以完成网络优化。

a1e462a18e4a22cdee6a6cf44bf50684.png

LST-CNN有三个功能模块。

  1. 首先,Feature Extractor在多个分辨率图像上提取特征;
  2. 然后,多尺度特征图被输入到一系列的Multi-scale Feedback Reasoning(MFR)单元中,之后经过提取的特征进行融合,并用于预测box。
  3. 最后,Non-Maximum Suppression(NMS)从多个分辨率图像上确定有效的预测结果,并结合生成最终结果。

为了训练模型,最后的一个阶段使用了GWTA模块。GWTA模块使用了winnners-take-all(WTA)loss,可以挑选合适的ground truth box。

-------------------------------------------

人头定位

Feature Extractor

这部分网络的输入是224×224大小的RGB图像,其结构采用了VGG-16的前五个卷积块,并做了相应的修改,其结构如下:

21108bc0786dd642d820309922bd445a.png

Feature extractor生成

原分辨率大小的特征图,不同于传统的多列结构,它可以通过共享low-level层的特征来区分每个尺寸分支。在部分的输出中&#x
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值