Multiview Detection with Feature Perspective Transformation

Multiview Detection with Feature Perspective Transformation (2020 ECCV) 处理严重遮挡下的行人检测 学习记录

作者及团队

Yunzhong Hou, Liang Zheng, and Stephen Gould,澳大利亚国立大学计算机学院的博士生及导师团队。

综述

本篇论文介绍了一种anchor-free的行人定位识别算法,此算法基于多个单目相机完成multiview检测。

关键词

多视角检测,图像信息融合,特征级融合/转换,anchor-free,全卷积网络。

背景与动机
  1. 多机位的意义:解决行人会被其他人遮挡的问题。
  2. anchor-free的意义:基于ROI-pooling的目标检测可能会因为人的动作不同而给出不准确的特征表达。并且用anchor的速度慢,计算代价大。用anchor-free的目标检测和定位会更准确,并且算的更快。
  3. 特征级融合的意义:原图像像素级的早期融合会使像素之间的空间位置关系被破坏,对于特征提取的难度会加大。检测结果的晚期融合会丢失信息,限制可以被融合的信息量。而特征级融合可以保留更多的语义空间信息,使得特征信息更完整。
主要贡献
  1. 设计了MVDet网络,用于多机位行人定位。
  2. 提出了特征图的3D到2D投影的方法来进行特征级融合。
算法输入输出
  1. 输入:多机位的同一时间3通道照片。
  2. 输出:人群分布俯视图(pedestrian occupancy map)。

总而言之这是一个端到端的算法。

算法流程与要点

在这里插入图片描述

前向传播
输入几张不同视角的3通道图,进行特征提取(ResNet-18)之后将提取出的特征图进行投影变换,将之前的3D视角的特征图投影到2D平面,并和坐标信息进行融合,得到一BEV俯视图。最后对这张BEV特征图叠加上两张coordinate map(之前没有很理解这个coord map是做什么的,跟作者沟通了一下得到作者的原话:这个coord map用来告知系统,场景内每个点的相对坐标。由于相机固定,不同位置会有不同相机覆盖,系统可以借此学会在不同位置相信哪些相机)。最终对叠加起来的特征图进行大卷积核卷积得到最终的位置预测。

反向传播相关

  1. 第一个Loss名为ground plane loss,用于计算gt人脚踩的位置与特征合并变幻后预测出的站立点的位置的差距。标签是以人站立点坐标为均值的高斯分布。是两个高斯分布之间的回归问题,应用了 L 2   l o s s L_{2}\ loss L2 loss来计算。
  2. 第二个Loss是single view loss,用于计算特征变幻合并前每个单目相机视角下里gt人的头的位置和站立点的位置关系与预测(检测)出的位置关系的差。是两个坐标之间的回归问题,应用了 L 2   l o s s L_2\ loss L2 loss来计算。

最后两个loss通过加权合并来得到最终的损失函数:
L c o m b i n e d = L g r o u n d + α × 1 N ∑ n = 1 N L s i n g l e ( n ) L_{combined} = L_{ground} + \alpha \times \frac{1}{N}\sum_{n=1}^N L_{single}^{(n)} Lcombined=Lground+α×N1n=1NLsingle(n)
其中 α \alpha α是权重, N N N是指摄像头的数量。

作者在论文中提及后一项 L s i n g l e L_{single} Lsingle可以省略,这个部分只是辅助收敛和识别。

:个人认为这个部分如果保留会使backbone网络有更强的特征提取能力(权重共享),能够帮助网络更好的定位到人的关键部位,类似于attention机制,进而帮助锁定人站立点位置。

本算法中的3D转2D依赖相机内外参的标定。

结果与结论

可以在有遮挡的情况下很好的输出行人的俯视位置图。

可能的局限与缺点
  1. 此算法用了很多个不同的视角才得出了这样的效果,如果摄像头数量变少效果可能会变差。
  2. 网络结构相对复杂,虽然优化了距离解算,但是不确定能不能做到实时检测(需要实验),作者在原文中并未提及算法的检测速度问题。
  3. 可能难以应用到公路车载,需要在特定的场景应用,例如比赛场地,工业园区。
部分额外图例
标签效果图

在这里插入图片描述

2D投影图

在这里插入图片描述

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值