RGBD数据任务中depth信息的使用方式


先上个总结,depth信息使用大致分为两种:
1)depth map作为image,或者编码成为HHA image,再进行fusion,包括4-channel RGB-D for early fusion and feature operation for late fusion。前期的RGBD segmentation都是使用HHA image
2)转换成点云再处理,RGBD pose estimation和后来的一些segmentation是这种思路

Segmentaion

《Learning Rich Features from RGB-D Images for Object Detection and Segmentation》

2014年文章,很老了,fast RCNN&FCN都没出来的时候研究的RGBD for detection and segmentation。这里主要是将depth编码成三个维度的信息,提取特征后辅助进行propose proposal&分类
在这里插入图片描述
这个编码过程得到的是3 channels image,文中成为HHA:
在这里插入图片描述
整体上是RCNN的框架
在这里插入图片描述
作者还尝试了一个early fusion的方式,得到一个4 channels RGB-D,然而效果不太行
在这里插入图片描述

FCN

经典的全卷积分割网络~
也顺便跑了个NYUDv2, which is an RGB-D dataset collected using the Microsoft Kinect.
4-channel RGB-D input不太行,所以使用到了上面介绍的HHA编码图片,进行late fusion
在这里插入图片描述
效果不错,
HHA这种对额外信息进行单独编码的方式是值得借鉴的
在这里插入图片描述

《LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling》

这篇是我们实验室当年的paper哇咔咔!!!

处理的是 Semantic labeling of RGB-D scenes,在perceptual robotics上有应用。(also known as semantic scene segmentation)

用了LSTM来处理depth信息:
在这里插入图片描述
LSTM作为基本单元来处理信息,融合RGB和depth两个分支的记忆内容,并且与conv7得到的RGB更深feature再次融合并进行分割
在这里插入图片描述
在这里插入图片描述
把depth信息编码成HHA image然后卷积,feature fusion的方式值得借鉴
(可以再仔细看看!)

《Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture》

NYU&Facebook联合出品,千引论文,也是很经典的一篇。
非常通用的工作,一口气解决三个任务,amazing!
但是看完之后,感觉对于depth信息上的处理没什么好挖掘的

整体结构是这样,每个scale有它自己的目标,之后会与input经过简单卷积后重新融合,然后进入到下一个scale。具体分工:
Scale 1: Full-Image View
Scale 2: Predictions
Scale 3: Higher Resolution
在这里插入图片描述
针对RGB-D数据进行semantic labeling,额外进行一些处理:
在这里插入图片描述

《3D Graph Neural Networks for RGBD Semantic Segmentation》

depth信息转换成3D point cloud,再利用3D graph进行处理:
在这里插入图片描述
在这里插入图片描述

Pose Estimation

《3D Human Pose Estimation in RGBD Images for Robotic Task Learning》

依据RGB-D预测3D keypoints&hand normals(手部朝向)
在这里插入图片描述
先是一个2D pose detector然后再是一个VoxelPoseNet。把深度信息depth map转化成一个KxKxK的point cloud进行处理:
在这里插入图片描述
具体一些细节文章交代的不是很清楚,可能occupancy voxel grid的计算是这个领域的常规操作吧,总之对于我借鉴来说意义不大

《Volumetric Capture of Humans with a Single RGBD Camera via Semi-Parametric Learning》

也是pose相关,但是偏AR/VR渲染,对depth的操作也是首先转换成4xM的点云:
在这里插入图片描述
emmm……总之看下来也没什么好借鉴的,就不多总结了
在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值