单幅图像场景理解，论文解读

最新推荐文章于 2024-02-28 00:35:26 发布

何雷

最新推荐文章于 2024-02-28 00:35:26 发布

阅读量4.4k

点赞数 1

分类专栏： paper reading 文章标签： 2014CV paper 单幅图像场景理解

本文链接：https://blog.csdn.net/helei001/article/details/44174907

版权

paper reading 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Karsch K, Liu C, Kang S B. Depth Transfer: Depth Extraction from Video Using Non-Parametric Sampling[J]. IEEE Transactions on Pattern Analysis \& Machine Intelligence, 2014 (11): 2144-2158.

已知RGB-D数据库，输入一幅RGB图像，使用GIST特征，找出其在数据库中的topK，然后利用SIFT flow把topK对应的深度图warp到输入图像上，针对K个深度图，使用能量优化的方法进行求解，得到输入图像的深度图。能量方程的建立何求解是亮点，其余都是Ce Liu两篇论文的基础，2011年PAMI：SIFT flow和Non-Parametric。此外，该项工作在视频2D-to-3D效果很不错。

Saxena A, Chung S H, Ng A Y. Learning depth from single monocular images[C]//Advances in Neural Information Processing Systems. 2005: 1161-1168.

3个尺度，每个尺度上的patch以及4领域，3*5=15，A0垂直方向上4个，每个patch与17个滤波器作卷积，（卷积乘方1，2）得到34个结果，（15+4）*34作为绝对深度特征。相对深度特征，每个patch与17个滤波器卷积，得到很多运算结果，使用10bins的直方图，相当于每个patch有170维的特征，垂直两个邻近的patch特征向量相减，结果作为相对深度特征，最后使用MRF来学习参数模型。

Saxena A, Chung S H, Ng A Y. 3-d depth reconstruction from a single still image[J]. International journal of computer vision, 2008, 76(1): 53-69.

相比前一篇，该篇论文增加利用立体视差得到深度的数据项。

Saxena A, Sun M, Ng A Y. Make3d: Learning 3d scene structure from a single still image[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(5): 824-840.

分割为很多superpixels，建立深度与超像素参数之间的关系，特征选取与前面相同，然后建立MRF模型：第一项建立图像特征与平面参数之间的关系，目标是每个超像素里的深度与ground-truth保持一致；第二项分为三个部分，第一部分，邻域的超像素，3D Model除了遮挡的关系，很可能是相连接的，目标是两个超像素相连接的区域深度一致。第二部分，假如邻域超像素之间有相似的特征，没有边沿存在，那么3D Model很可能是共面的，目标是沿着某一方向，相机到两个超像素的深度相同。第三部分，图像平面是直线，那么3D Model也是直线，目标是在3D Model中，一条直线通过一个superpixel，相机沿着某方向到另一个超像素的深度与到这条直线的深度相同；第三项是多幅图像根据视差估计得到的深度。最后使用线性规划求解。

Fouhey D F, Gupta A, Hebert M. Unfolding an indoor origami world[M]//Computer Vision–ECCV 2014. Springer International Publishing, 2014: 687-702.

定义容易识别和可推断三维结构的基元，对大量通过HOG检测过的patch以及增加的负样本，进行聚类得到基元（很多个），然后使用学习到的基元对输入图像进行3D场景解释，得到法向量，其方法与depth transfer相类似。

Fouhey D F, Gupta A, Hebert M. Data-driven 3D primitives for single image understanding[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 3392-3399.

找到单幅图像的三个消隐点，每两个消隐点通过光速扫描可以得到一个网格平面，建立三个网格与图像对应位置的对应关系，确定图像某个区域是取哪个网格里哪个cell的值，使用第一篇论文的label transfer的方法，然后smooth，再引入凸结构或者凹结构的边进行推断相邻表面的法向量，保证推断结构的准确性和完整性。

何雷

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
单幅图像场景理解，论文解读

Karsch K, Liu C, Kang S B. Depth Transfer: Depth Extraction from Video Using Non-Parametric Sampling[J]. IEEE Transactions on Pattern Analysis \& Machine Intelligence, 2014 (11): 2144-2158.已知RGB-D数据
复制链接

扫一扫