Multiview Detection with Feature Perspective Transformation

最新推荐文章于 2024-06-10 09:56:39 发布

ZC_Duan

最新推荐文章于 2024-06-10 09:56:39 发布

阅读量1k

点赞数 8

分类专栏： Cooperative Perception 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_40789546/article/details/111433505

版权

Cooperative Perception 专栏收录该内容

3 篇文章 6 订阅

订阅专栏

Multiview Detection with Feature Perspective Transformation （2020 ECCV）处理严重遮挡下的行人检测学习记录

文章目录

- - Multiview Detection with Feature Perspective Transformation （2020 ECCV）处理严重遮挡下的行人检测学习记录

作者及团队

Yunzhong Hou, Liang Zheng, and Stephen Gould，澳大利亚国立大学计算机学院的博士生及导师团队。

综述

本篇论文介绍了一种anchor-free的行人定位识别算法，此算法基于多个单目相机完成multiview检测。

关键词

多视角检测，图像信息融合，特征级融合/转换，anchor-free，全卷积网络。

背景与动机

多机位的意义：解决行人会被其他人遮挡的问题。
anchor-free的意义：基于ROI-pooling的目标检测可能会因为人的动作不同而给出不准确的特征表达。并且用anchor的速度慢，计算代价大。用anchor-free的目标检测和定位会更准确，并且算的更快。
特征级融合的意义：原图像像素级的早期融合会使像素之间的空间位置关系被破坏，对于特征提取的难度会加大。检测结果的晚期融合会丢失信息，限制可以被融合的信息量。而特征级融合可以保留更多的语义空间信息，使得特征信息更完整。

主要贡献

设计了MVDet网络，用于多机位行人定位。
提出了特征图的3D到2D投影的方法来进行特征级融合。

算法输入输出

输入：多机位的同一时间3通道照片。
输出：人群分布俯视图（pedestrian occupancy map）。

总而言之这是一个端到端的算法。

算法流程与要点

在这里插入图片描述

前向传播
输入几张不同视角的3通道图，进行特征提取（ResNet-18）之后将提取出的特征图进行投影变换，将之前的3D视角的特征图投影到2D平面，并和坐标信息进行融合，得到一BEV俯视图。最后对这张BEV特征图叠加上两张coordinate map（之前没有很理解这个coord map是做什么的，跟作者沟通了一下得到作者的原话：这个coord map用来告知系统，场景内每个点的相对坐标。由于相机固定，不同位置会有不同相机覆盖，系统可以借此学会在不同位置相信哪些相机）。最终对叠加起来的特征图进行大卷积核卷积得到最终的位置预测。

反向传播相关

第一个Loss名为ground plane loss，用于计算gt人脚踩的位置与特征合并变幻后预测出的站立点的位置的差距。标签是以人站立点坐标为均值的高斯分布。是两个高斯分布之间的回归问题，应用了 $L_{2}\ loss$ 来计算。
第二个Loss是single view loss，用于计算特征变幻合并前每个单目相机视角下里gt人的头的位置和站立点的位置关系与预测（检测）出的位置关系的差。是两个坐标之间的回归问题，应用了 $L_2\ loss$ 来计算。

最后两个loss通过加权合并来得到最终的损失函数:
$L_{combined} = L_{ground} + \alpha \times \frac{1}{N}\sum_{n=1}^N L_{single}^{(n)}$
其中 $\alpha$ 是权重， $N$ 是指摄像头的数量。

作者在论文中提及后一项 $L_{single}$ 可以省略，这个部分只是辅助收敛和识别。

注：个人认为这个部分如果保留会使backbone网络有更强的特征提取能力（权重共享），能够帮助网络更好的定位到人的关键部位，类似于attention机制，进而帮助锁定人站立点位置。

本算法中的3D转2D依赖相机内外参的标定。

结果与结论

可以在有遮挡的情况下很好的输出行人的俯视位置图。

可能的局限与缺点

此算法用了很多个不同的视角才得出了这样的效果，如果摄像头数量变少效果可能会变差。
网络结构相对复杂，虽然优化了距离解算，但是不确定能不能做到实时检测（需要实验），作者在原文中并未提及算法的检测速度问题。
可能难以应用到公路车载，需要在特定的场景应用，例如比赛场地，工业园区。

部分额外图例

标签效果图

在这里插入图片描述

2D投影图

在这里插入图片描述

ZC_Duan

关注

8
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
Multiview Detection with Feature Perspective Transformation

Multiview Detection with Feature Perspective Transformation （2020 ECCV）处理严重遮挡下的行人检测学习记录文章目录Multiview Detection with Feature Perspective Transformation （2020 ECCV）处理严重遮挡下的行人检测学习记录作者及团队综述关键词背景与动机主要贡献算法输入输出算法流程与要点结果与结论部分额外图例标签效果图2D投影图作者及团队Yunzhong Hou,
复制链接

扫一扫