论文阅读笔记：Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes...

最新推荐文章于 2024-04-26 09:41:40 发布

种花家的德棍

最新推荐文章于 2024-04-26 09:41:40 发布

阅读量1.6k

点赞数 4

分类专栏：论文阅读文章标签：深度学习计算机视觉 3d

本文链接：https://blog.csdn.net/qq_41918369/article/details/110941609

版权

论文阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

论文连接：https://arxiv.org/abs/2002.12212

论文源码：https://github.com/yinyunie/Total3DUnderstanding

论文英语视频：https://www.youtube.com/watch?v=tq7jBhfdszI

1.本文能够从一张图片估计相机的位置，房间的布局，物体检测的bounding boxes 和mesh重建。

2.本文认为房间的布局和相机的位置、物体的bounding box 和mesh这三个部分是相辅相成的。
就像SLAM认为定位和重建是相辅相成的，本文认为上述三个部件也是相辅相成的。

3.本文在处理的过程中注重了场景的整体理解，通过理解这个场景是干什么的，以及相关的物体摆放之间的关系。从而为更好的重建服务。三维物体的摆放，位姿等等东西也和环境具体是什么有着相关的联系。（透过这种关系，也许也是一种减小算力的方式。）

4.本文是已知（博主已知）第一篇将三维语义理解和重建进行耦合的工作，三维understanding来存进重建，同时用重建来促进更精准的understanding。（但是这种促进的关系，现在并没有一个数学公式来刻画，现在只是利用深度学习的方法，从结果变好的角度认为，是互相促进的。）

5.本文的主要贡献：

（1）是第一个端到端的，将3D understanding和重建进行耦合的一个工作，三维understanding来存进重建，同时用重建来促进更精准的understanding。（但是这种促进的关系，现在并没有一个数学公式来刻画，现在只是利用深度学习的方法，从结果变好的角度认为，是互相促进的。）

（2）本文在mesh重建中利用了 topology modifier network的方法，同时对该方法进行了改进，分别同local density 代替了原来的depth，用cut mesh edges 而不是原来的改变face的方法，来完成mesh的拓扑结构的修改。
同时，该mesh重建的方法主要是，通过检测出物体的类别，然后从模型库中调取最相似的模型，然后再改变mesh的拓扑结构，来完成最终的目标的mesh重建的任务。
（3）本文认为对语义环境的了解，更有利于检测物体的位姿，同时更有利于更快更好的重建物体。并实践了这一观点。

6.本文一共有三个并行处理的网络：

layout estimation network(LEN)，3D Obeject Detection Network(ODN)，Mesh Generation Network(MGN)
其中
LEN的主要任务是检测相机的位置，和layout bounding boxer（整个室内房间的box预测）。

ODN的主要任务是预测出物体的3D bounding box。

MGN的主要任务是完成物体的mesh重建。
在这里插入图片描述

三个网络的大致处理思路：
ODN

如图所示，首先通过ResNet对二维的图片进行检测，然后检测出多个物体的特征，同时找出多个物体的几何关系，然后通过 attention sum （这里引入了attention mechanism的思路）来计算多个物体和我们主要检测的物体的relational feature ，然后再结合进主要检测目标的特征向量，最后再通过多层感知机，完成三维物体的检测。
在这里插入图片描述

LEN
Len网路和上面ODN的网络很相似，只是删除了relational feature 然后增加了两个全连接层。主要目的是检测出相机的位姿，和房间的box相关信息。
MGN
在这里插入图片描述

处理思路如图所示，首先利用二维检测，检测出目标的特征向量，然后利用one-hot编码获得物体的类别，再从template sphere 拿出该物体的mesh模型，最后通过改进的topology modifier network完成物体的mesh三维重建。

7.首先将三个网络都单独进行训练，最后再将三个网络联合在一起进行训练。

8.不足：（1）耗费的算力非常大，在真实实时的场景中不能应用（作者认为，可以设计弱监督的学习网络可能解决该问题）。
（2）对距离尚未远一点的物体不work
（3）对有遮挡的物体，并不work，显然只对明显暴露在视野中的物体才很好。
（4）对纹理复杂的物体，和小物体，该方法都不work
（5）因为有模型库的原因，很多结果是从模型库中取出的，同时优化的还不够（即大致形状出来了，但是有些细节上和真实的并不一样）

种花家的德棍

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记：Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes...

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image论文连接：https://arxiv.org/abs/2002.12212论文源码：https://github.com/yinyunie/Total3DUnderstanding论文英语视频：https://www.youtube.com/watch?v=tq7jBhfdszI1.本
复制链接

扫一扫