Multiview Detection with Feature Perspective Transformation

Multiview Detection with Feature Perspective Transformation (2020 ECCV) 处理严重遮挡下的行人检测 学习记录

作者及团队

Yunzhong Hou, Liang Zheng, and Stephen Gould,澳大利亚国立大学计算机学院的博士生及导师团队。

综述

本篇论文介绍了一种anchor-free的行人定位识别算法,此算法基于多个单目相机完成multiview检测。

关键词

多视角检测,图像信息融合,特征级融合/转换,anchor-free,全卷积网络。

背景与动机
  1. 多机位的意义:解决行人会被其他人遮挡的问题。
  2. anchor-free的意义:基于ROI-pooling的目标检测可能会因为人的动作不同而给出不准确的特征表达。并且用anchor的速度慢,计算代价大。用anchor-free的目标检测和定位会更准确,并且算的更快。
  3. 特征级融合的意义:原图像像素级的早期融合会使像素之间的空间位置关系被破坏,对于特征提取的难度会加大。检测结果的晚期融合会丢失信息,限制可以被融合的信息量。而特征级融合可以保留更多的语义空间信息,使得特征信息更完整。
主要贡献
  1. 设计了MVDet网络,用于多机位行人定位。
  2. 提出了特征图的3D到2D投影的方法来进行特征级融合。
算法输入输出
  1. 输入:多机位的同一时间3通道照片。
  2. 输出:人群分布俯视图(pedestrian occupancy map)。

总而言之这是一个端到端的算法。

算法流程与要点

在这里插入图片描述

前向传播
输入几张不同视角的3通道图,进行特征提取(ResNet-18)之后将提取出的特征图进行投影变换,将之前的3D视角的特征图投影到2D平面,并和坐标信息进行融合,得到一BEV俯视图。最后对这张BEV特征图叠加上两张coordinate map(之前没有很理解这个coord map是做什么的,跟作者沟通了一下得到作者的原话:这个coord map用来告知系统,场景内每个点的相对坐标。由于相机固定,不同位置会有不同相机覆盖,系统可以借此学会在不同位置相信哪些相机)。最终对叠加起来的特征图进行大卷积核卷积得到最终的位置预测。

反向传播相关

  1. 第一个Loss名为ground plane loss,用于计算gt人脚踩的位置与特征合并变幻后预测出的站立点的位置的差距。标签是以人站立点坐标为均值的高斯分布。是两个高斯分布之间的回归问题,应用了 L 2   l o s s L_{2}\ loss L2 loss来计算。
  2. 第二个Loss是single view loss,用于计算特征变幻合并前每个单目相机视角下里gt人的头的位置和站立点的位置关系与预测(检测)出的位置关系的差。是两个坐标之间的回归问题,应用了 L 2   l o s s L_2\ loss L2 loss来计算。

最后两个loss通过加权合并来得到最终的损失函数:
L c o m b i n e d = L g r o u n d + α × 1 N ∑ n = 1 N L s i n g l e ( n ) L_{combined} = L_{ground} + \alpha \times \frac{1}{N}\sum_{n=1}^N L_{single}^{(n)} Lcombined=Lground+α×N1n=1NLsingle(n)
其中 α \alpha α是权重, N N N是指摄像头的数量。

作者在论文中提及后一项 L s i n g l e L_{single} Lsingle可以省略,这个部分只是辅助收敛和识别。

:个人认为这个部分如果保留会使backbone网络有更强的特征提取能力(权重共享),能够帮助网络更好的定位到人的关键部位,类似于attention机制,进而帮助锁定人站立点位置。

本算法中的3D转2D依赖相机内外参的标定。

结果与结论

可以在有遮挡的情况下很好的输出行人的俯视位置图。

可能的局限与缺点
  1. 此算法用了很多个不同的视角才得出了这样的效果,如果摄像头数量变少效果可能会变差。
  2. 网络结构相对复杂,虽然优化了距离解算,但是不确定能不能做到实时检测(需要实验),作者在原文中并未提及算法的检测速度问题。
  3. 可能难以应用到公路车载,需要在特定的场景应用,例如比赛场地,工业园区。
部分额外图例
标签效果图

在这里插入图片描述

2D投影图

在这里插入图片描述

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 对比多视角编码(Contrastive Multiview Coding)是一种用于自监督学习的方法,它通过对同一样本的不同视角进行编码,来学习样本的特征表示。该方法可以在无需标注数据的情况下,从大量未标注的数据中学习到有用的特征表示,从而提高模型的泛化能力和性能。 ### 回答2: 对比多视图编码(Contrastive Multiview Coding, CMC)是一种新兴的自监督学习方法,是一种利用多个视角来学习数据特征的方法。相比于从传统的数据集中学习高级特征来说,CMC的作用在于通过理解不同数据视图之间的关系来代替手工标注或人为制造标签。 CMC方法将多个视角数据(例如从不同角度或时间拍摄的图像)随机组合进行研究,以便能够更好地训练出模型。这种方法的优点在于,它能够学习具有普适性的判别性特征,同时保留训练数据的复杂性。这意味着CMC方法在不依赖于大量标签数据的情况下,仍能够有效提供有用的表示特征。 CMC从理论上只需要一个loss function来完成整个模型的训练,这一点使它成为自监督学习中的热门方法之一。 它在应用中的一个重要应用是在计算机视觉领域,如图像分类、物体检测和语义分割等方面。它已经在许多计算机视觉任务中表现优异。 总之,对比多视图编码是一种适用于多视图学习的先进方法,因为它在利用不同视图之间的相似性来训练模型时非常有效,因此被广泛应用于计算机视觉领域。 ### 回答3: 对比多视图编码(Contrastive Multiview Coding,CMC)是一种新的自监督表示学习方法。它利用多视图(多角度、多尺度、多剪裁的)数据来学习特征表达,从而生成可区分、可重用的低维嵌入。该方法通常用于解决少标注数据问题,因为不像监督学习方法,它不需要标注在先。 CMC的核心思想是,使用互相独立的视角(通常指从不同的角度、尺度、或者剪裁方式上观察同一物体)来捕捉不同的特征信息,并学习如何将这些视角下的不同的低维特征嵌入到同一空间中。通过学习如何将这些特征的嵌入对样本之间的差异进行建模,在同一视角之外的样本之间也能够建立起有意义的对比关系。 具体的训练过程中,CMC通过分别对每个视角进行编码操作,为每个视角得到一个低维的特征表示,然后以最大化互相对比度的方式优化这些特征表达,让同一样本在不同视角下产生的嵌入向量更加接近,不同样本之间的嵌入向量相对较远,以此达到更好的分类效果。 总体而言,CMC具有可拓展性、半监督、不受领域限制等多样的特点,可以为许多计算机视觉任务提供有用的特征表示。此外,由于CMC利用无监督的自我学习机制,因此可以在无监督的情况下使用大规模数据,可以应用于数据集较少的任务中。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值