#今日论文推荐#ECCV 2022 | 面向高光和透明物体感知与抓取的域随机化增强的深度仿真与修复

#今日论文推荐#ECCV 2022 | 面向高光和透明物体感知与抓取的域随机化增强的深度仿真与修复

该论文由北京大学王鹤课题组与阿里巴巴 XR Lab 和北京大学董豪课题组合作完成。文章研究了主动立体视觉深度相机在高光和透明材质物体上的深度修复问题并展示了深度修复对下游高光和透明物体抓取及位姿估计的重大帮助。
文章提出了基于域随机化增强的深度相机仿真方法,构造了囊括高光、透明、漫反射材质的 RGB-D 仿真数据集并采集了真实数据集。文章进一步提出了一种基于 Swin Transformer 进行 RGB-D 融合的实时深度修复算法(30 FPS),在域随机的仿真数据上训练的深度修复算法可以直接泛化到真实环境。实验证明我们的方法超过了已有的深度修复算法,可直接帮助已有三维视觉算法应用到高光和透明物体的抓取与位姿估计任务中。

在当前火热的 VR/AR 和机器人领域,深度相机是一种广泛应用的设备,能够便捷地获取深度和点云数据。但是现有的深度相机在深度采集过程不可避免会引入传感器噪声(sensor noise),特别是对高光和透明材质物体(specular and transparent objects),如图1所示,捕获的深度出现了严重错误甚至缺失。而实际上金属制品、玻璃器皿等高光或透明物体在生活中非常常见,这就给基于深度或点云的视觉感知与交互算法带来了严峻的挑战,也迅速引起了研究人员的关注。

为应对这一挑战,我们设计了一个基于深度相机仿真的深度修复系统,如图2所示。对于深度修复,我们提出了一个有效的基于 Swin Transformer[1] 的 RGB-D 融合网络 SwinDRNet。然而,在数据方面,构建大规模成对传感器深度(sensor depth)和完美深度(perfect depth)的真实数据集通常费时费力,此前 ClearGrasp[2]、LIDF[3] 等透明物体深度补全工作都只使用合成的完美深度作训练。我们通过实验认识到,模型如果在训练时没见过具有现实传感器噪声的深度,在测试阶段就难以在真实传感器深度上达到更优的性能。此外,之前的工作都只考虑形状差异小的少数透明或高光物体,在没见过的物体和类别上泛化能力较差。
对此,我们提出了域随机化增强的深度仿真(Domain Randomization-Enhanced Depth Simulation)方法,通过模拟主动立体视觉深度相机(active stereo vision depth camera)成像原理,生成具有真实传感器噪声的深度图像,并进一步对场景中的物体类别、物体材质、物体布局、背景、光照、相机位姿等做域随机化(domain randomization)以增强泛化性能,合成了规模达130K 的 RGB-D 仿真数据集 DREDS。我们还构造了一个 RGB-D 真实数据集 STD,囊括了50个高光、透明或漫反射材质物体。
我们通过大量实验,展示了 SwinDRNet 仅在 DREDS 仿真数据训练,就能在 STD 真实数据的深度修复上泛化到高光、透明、漫反射等多种材质的新物体实例和新类别物体,超越各基线算法;能够泛化到没见过的 ClearGrasp[2] 数据集,超越之前训练在该数据集的最优方法 LIDF[3];并且支持实时深度修复(30 FPS)。类别级物体位姿估计与机械臂抓取实验进一步验证了我们的深度修复能显著提升下游任务性能,并且是可泛化的。

论文题目:Domain Randomization-Enhanced Depth Simulation and Restoration for Perceiving and Grasping Specular and Transparent Objects 
详细解读:https://www.aminer.cn/research_report/62fb92d87cb68b460f049416icon-default.png?t=M666https://www.aminer.cn/research_report/62fb92d87cb68b460f049416
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值