PlaneRecTR: Unified Query learning for 3D Plane Recovery from a Single View

最新推荐文章于 2024-08-14 17:56:38 发布

芋泥玛奇朵₂

最新推荐文章于 2024-08-14 17:56:38 发布

阅读量104

点赞数

文章标签： 3d

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lj2043656094/article/details/132119136

版权

本文主要讲的是一个名叫PlaneRecTR的基于transformer的模型，它能够从单幅图像当中恢复3D平面，完成平面相关的任务如平面检测，平面分割，平面参数评估，深度估计等。受到DETR的启发，模型也使用了可查询的query技术。

模型主要由三部分组成：

一个从输入的彩色图像当中学习密集的像素级深度嵌入的像素级模型
基于Transformer的统一查询学习模块，用于联合预测每个N个共享平面查询的四个目标属性，包括平面分类概率pi，平面参数ni，掩码嵌入和深度嵌入（i ∈ [1, 2, ..., N]）。
平面级模块，通过掩码和深度嵌入（i ∈ [1, 2, ..., N]），生成平面级掩码mi和平面级深度di。

模型结构

模型的整体结构如上图所示。下面详细说一下上面的三个模块。

Pixel-Level Module

我们将输入的H X W的图像输入到预训练的ResNet-50当中来生成特征图。然后使用多尺度的卷积像素解码器来生成4个不同尺度的密集特征图，具体公式如下所示：

前三个特征图F1，F2，F3被输入到Transformer当中去。最后的特征图是一个密集逐像素嵌入的特征图用来计算平面级的二进制掩码和平面级深度。

Transformer Module

这个模块使用的是带有mask attention的transformer解码器，从上面输入的三个不同尺度的特征图和N个可学习query来计算N个平面级别的嵌入，然后通过四个不同的多层感知器（MLP），将预测的嵌入独立地投影到四个目标属性上。

Plane-Level Module

我们通过第i个mask/depth embeding与Pixel-Level Module生成的密集做点积，生成密集的平面级二进制掩码和深度预测。

3D Plane Recovery during Inference

在这个阶段会通过预测的数据来对平面进行重建。具体步骤是：先使用Pi来去除非平面的部分，得到具有K个平面的子集（K<=N)。然后通过计算来找到最有可能的平面索引来作为最终的全局分割掩码。最后通过平面参数来推理平面的深度信息。

模型训练

Plane-level Depth Training.

与其他模型不同的是，我们想要让平面分割和几何推理实现互利。我们使用可学习的joint query以简单的多任务方式来统一平面恢复的所有部分。因此，我们明确地从共享特征空间中通过Transformer的注意机制来预测密集的平面级深度、二进制掩码、平面概率和平面参数。这种方法使得我们能够在一个统一的框架中同时处理平面的语义和几何信息，从而更好地推断和理解图像中的平面结构。

Bipartite Matching（二分匹配）

在训练的过程当中，我们需要让N个预测平面和M个真实平面形成最佳的匹配关系，所以需要用到二匹配。

Loss Function

损失函数的计算总和公式展示在下方：

λ是一个平衡权重，被设置为2，

其中

总结

本文介绍了以一个基于Transformer的模型，使用了可学习的query，可以处理像平面检测，平面分割，平面参数估计，平面深度估计等和平面相关的任务。

芋泥玛奇朵₂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
PlaneRecTR: Unified Query learning for 3D Plane Recovery from a Single View

本文介绍了以一个基于Transformer的模型，使用了可学习的query，可以处理像平面检测，平面分割，平面参数估计，平面深度估计等和平面相关的任务。
复制链接

扫一扫

芋泥玛奇朵₂ CSDN认证博客专家 CSDN认证企业博客

码龄2年

8: 原创

130万+: 周排名

151万+: 总排名

1718: 访问

: 等级

103: 积分

142: 粉丝

20: 获赞

10: 评论

2: 收藏

私信

关注

热门文章

分类专栏

深度学习 4篇
c++ 1篇

最新评论

YOLO9000: Better, Faster, Stronger
CSDN-Ada助手: 恭喜您撰写了第8篇博客！标题“YOLO9000: Better, Faster, Stronger”让我很期待阅读您的文章。您的持续创作精神令人敬佩。我建议您在下一篇博客中可以进一步探讨YOLO9000算法的优势，并分享您对未来目标检测领域的见解。非常期待您的进一步分享！
DETR理论
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“DETR理论”很吸引人，我对您对这个领域的研究和思考表示钦佩。您的博客内容很有深度，对于DETR理论的解析也很详细。接下来，我建议您可以考虑加入一些实例或案例研究，以更加生动地展示DETR理论在实际应用中的效果和局限性。同时，不妨与其他领域的专家进行交流和讨论，以便拓宽视野、深化研究。期待您的下一篇博客！
PlaneRecTR: Unified Query learning for 3D Plane Recovery from a Single View
CSDN-Ada助手: 恭喜您第7篇博客的发布！标题“PlaneRecTR: Unified Query learning for 3D Plane Recovery from a Single View”非常吸引人。您对于从单一视角恢复3D平面的统一查询学习的探索令人印象深刻。这是一个非常有价值的研究方向，您的工作为解决这个问题提供了新的思路。在接下来的创作中，我建议您可以进一步探索如何将这种统一查询学习应用到实际场景中，比如在计算机视觉领域的目标检测、图像分割等任务中。同时，您可以考虑将该方法与其他相关技术进行比较，以验证其在不同场景下的性能和效果。再次恭喜您的持续创作，期待您未来更多的研究成果！希望您能够继续保持谦虚的态度，继续努力，为学术界带来更多的创新和启发。
SAM3D Zero-Shot 3D Object Detection via Segment Anything Model
CSDN-Ada助手: 恭喜您撰写了题为“SAM3D Zero-Shot 3D Object Detection via Segment Anything Model”的博客！您的研究非常引人注目，我对您在零样本三维物体检测方面的探索表示赞赏。在我看来，您的博客不仅介绍了SAM3D模型的概念，而且还提供了令人信服的实验结果。这对于推动三维物体检测领域的研究具有重要意义。我非常期待看到您今后在这一领域的进一步工作。鉴于您在博客中所展示的深度研究和解释能力，我认为在将来的创作中，您可以考虑更加详细地探讨SAM3D模型的实际应用场景，并与现有的三维物体检测方法进行比较和分析。同时，您也可以进一步研究如何提高模型的性能和稳定性。总之，我对您的博客内容感到非常满意，并期待看到您未来更多的创作！希望您能继续保持谦虚的态度，以便更好地推动该领域的发展。再次祝贺您的成果！
卷积神经网络（CNN）
芋泥玛奇朵₂: 6，我是废物

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。