【论文笔记】《3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction》

3D-R2N2

ECCV 2016《3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction》

Choy, Christopher B and Xu, Danfei and Gwak, JunYoung and Chen, Kevin and Savarese, Silvio
论文链接:https://arxiv.org/abs/1604.00449
个人理解,如有错误见谅

Introduction

之前3D重建的SOTA方法存在一系列的限制:

  1. 观察物体的视角要密集,也就是说相机的位置变化相对比较小。(objects must be observed from a dense number of views; or equivalently, views must have a relatively small baseline)

  2. 物体的表面是Lambertian的(即理想散射、完全漫反射)并且表面富有不均匀纹理。(objects’ appearances (or their reflectance functions) are expected to be Lambertian (i.e. non-reflective) and the albedos are supposed be non-uniform (i.e., rich of non-homogeneous textures)

    此论文受到LSTM和CNN成功应用的启示,提出了一种新的结构:3D-R2N2,此网络以一张或多张图片作为输入,输出重建物体的3D occupancy grid.

    上图中左图为希望重建的物体的图片,可以看出同一物体的不同视点的位置差异还是较大的,同时也可以看出这些物体的纹理都不是很强,正好对应了之前方法的限制。

    右图是3D-R2N2的overview,在这个例子中,网络将包含3张图片的图片序列(不同viewpoint)作为输入,然后生成体素化的3D重建,从图中可以看出,随着网络接受的不同视角图片数量增加,生成的模型也在不断地精细化。

    另外一点是3D-R2N2在训练和测试过程不需要任何分割、视点标签、相机校准等,仅需要bounding box*(Our approach requires minimal supervision in training and testing (just bounding boxes, but no segmentation, keypoints, viewpoint labels, camera calibration, or class labels are needed))*

    论文使用的数据集:PASCAL 3D、ShapeNet 、Online Products、MVS CAD Models

(这篇论文网络结构的思路是:利用LSTM(RNN)可接受任意长度输入序列的性质来统一单视图或者多视图输入,同时结合CNN在单视图3D重建的成功应用。同时LSTM这样的网络可以有效处理物体遮挡的情况,因为网络仅更新对应于物体可见部分的单元*(a recurrence module that allows the network to retain what it has seen and to update the memory when it sees a new image)*,如果后续视图显示先前被遮挡的部分,且这部分与网络预测不匹配,则网络将更新先前被遮挡的部分的 LSTM 状态,但保留其他部分

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值