点击上方“计算机视觉工坊”,选择“星标”
干货第一时间送达
作者丨简单
来源丨 CV技术指南
前言 本文提出了一种基于深度感知的全景分割(DPS)的统一框架,旨在从一幅图像中重建具有实例级语义的三维场景。该框架将动态卷积技术应用于全景分割(PS)和深度预测任务中,以生成特定于实例的内核来预测每个实例的深度和分割掩码。此外,利用实例级深度估计方案,添加了额外的实例级深度线索,以通过新的深度损失来帮助监督深度学习。
论文:PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation
论文:http://arxiv.org/pdf/2206.00468
代码:
https://github.com/NaiyuGao/PanopticDepth.
背景
深度感知全景分割(DPS)是场景理解中的一项新的挑战性任务,它试图从单个图像构建具有实例级语义理解的三维场景。
DPS的一个简单解决方案是在全景分割(PS)网络中添加一个密集的深度回归头,为每个标记的像素生成一个深度值,该方法直观但次优。
由于它使用两个独立的分支处理这两个任务,因此它没有探索它们之间的互利关系,尤其是没有利用方便的实例级语义线索来提高深度准确性。
另外,作者观察到,相邻实例的像素通常具有不连续的深度。例如,一条线中的两辆车可能有不同的深度。因此,使用相同的像素深度回归器很难预测两辆车的准确深度。
另一方面,作者考虑到这些像素来自不同的车辆,如果分别使用单独的回归器,则有利于深度估计。
按照上述思路,作者在本文中提出了一个可以以相同的实例方式预测掩码和深度值的统一的PanopticDepth模型框架(如图1)。
图1 深度感知全景分割统一解决方案的示例
贡献
1.提出了一种特定于实例的动态卷积核技术将深度估计和全景分割方法统一起来,从而提高了这两种任务的性能。
2.为了简化深度估计,受批量归一化的启发,提出将每个实例深度图表示为三元组,即归一化深度图、深度范围和深度偏移,将原始实例深度映射的值规范化为[0,1],以提高了学习效率。
3.基于新的深度图表示(如深度偏移)添加了实例级深度统计,以加强深度监控。为适应这种新的监督,提出了相应的深度损失,以改进深度预测。
方法
作者提出了一种统一的深度感知全景分割模型PanopticDepth,它以相同的实例方式预测掩模和深度值。除了主干网和特征金字塔网络之外,它还包括三个子网络,包括用于生成实例分类的核生成器、实例特定掩码和深度卷积核、用于生成实例掩码的全景分割模型以及用于估计实例深度的实例深度图生成器。网络架构如图2所示。
图2 PanopticDepth框架
1.内核生成器
通过核生成器子网络生成实例分类、掩码卷积核和深度估计核(图2的上半部分)。内核生成器基于最先进的全景分割模型PanopticFCN,该模型采用了PS的动态卷积技术,与其他最新方法相比,所需的训练时间和GPU内存更少。
作者采用的内核生成器分为内核生成器和内核融合两个阶段。在内核生成器阶段,将FPN中第i阶段的一个单阶段特征作为输入,生成器生成一个内核权重映射,以及分别为对象和对象生成的两个位置映射,给定每个FPN阶段的位置图和核权重图,在核融合阶段,合并多个FPN阶段的重复核权重,通过提出的自适应核融合(AKF)操作实现的。
2.全景分割
采用了一种特定于实例的核方法来执行全景分割,如图2底部所示。thing和stuff实例的掩码M是通过卷积共享的高分辨率掩码嵌入映射得到的∈ ,掩码核为,然后进行Sigmoid激活:
首先丢弃冗余实例掩码。然后,将所有剩余的实例掩码与argmax合并,以生成不重叠的全景分割结果,这样每个像素都被分配到一个事物或填充片段,而没有任何像素标记为“VOID”。
此外,作者还提出了一个额外的训练过程,即在全图像尺度上微调学习模型,但批量较小。以弥补训练和测试之间的性能差距。
3.基于实例的深度估计
通过在全景分割中使用的相同实例特定核技术来预测每个实例的深度,该技术将深度估计和全景分割的管道统一起来。如图2的中间部分所示,首先在深度嵌入上运行深度核以生成实例深度图,然后根据全景分割结果合并这些单独的图像以生成最终的整体深度图。
3.1深度生成器
给定实例特定深度内核Kd和共享深度嵌入Ed,类似于实例掩码生成过程,通过卷积和Sigmoid激活生成规范化的实例深度图D',然后通过等式4或等式5将其非规范化为深度图D:
其中深度图D′只对每个实例中的相对深度值进行编码,因此可以更容易地学习。此外,作者开发了两种归一化方案,即公式4和公式5,并发现后者效果更好。
在获得所有实例深度图之后,作者根据不重叠的全景分割掩码M将它们聚合为一个完整的图像深度图。这在实例边界处生成了精确的深度值。
3.2深度损失
作者基于比例不变对数误差和相对平方误差的组合开发了深度损失函数,如下:
由于采用了基于实例的深度估计方法,作者在传统的像素级监控和额外的实例级监控下学习深度预测,这从经验上提高了深度精度。为了实现双重监督,最终深度损失Ldep包括两个损失项。一个是像素级深度损失,另一个是实例级深度损失:
实验
表1:城市景观验证和测试集的全景分割结果。”AKF:“自适应内核融合”FSF:全面微调
表2:城市景观DPS上的深度感知全景分割结果
表3:城市景观DPS的消融研究。”IDE“:实例深度估计”IDN“:实例深度规范化
表4:城市景观的单目深度估计结果方法利用全景分割注释
图3:像素级深度估计在两个实例的边界处输出平滑值,而实例级深度估计可以生成更合理的不连续深度值
图4:PanopticDepth模型的预测示例
结论
本文提出了一个统一的深度感知全景分割框架,生成特定于实例的内核来预测每个实例的深度和分割掩码。
采用动态核技术将高层目标信息引入深度估计,使用深度偏移和深度范围对每个实例深度图进行归一化,以简化共享深度嵌入的学习。
此外,本文还提出了一种新的深度损失方法来监督实例级深度线索的深度学习。在城市景观DPS和SemKITTI DPS基准上的实验证明了该方法的有效性。
本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
计算机视觉工坊精品课程官网:3dcver.com
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~