LCD: 2D-3D匹配算法

HHHTTY-

已于 2023-02-14 16:23:48 修改

阅读量1.9k

点赞数

分类专栏：论文文章标签：计算机视觉深度学习 3d 人工智能

于 2022-09-15 00:04:54 首次发布

本文链接：https://blog.csdn.net/weixin_43338969/article/details/126862804

版权

3 篇文章 0 订阅

订阅专栏

提出了一种新颖的方法，来学习用于2D图像和3D点云匹配的，局部跨域描述符

双自编码器神经网络
将2D和3D输入，映射到共享的潜在空间表示中
与分别从2D和3D域中获得的那些描述符相比，共享嵌入中的此类局部跨域描述符具有更大的判别力
三个主要实验：2D-3D匹配，跨域检索和稀疏到稠密深度估计
虽然二维和三维描述符广泛可用，但确定这些表示之间的关联是一项具有挑战性的任务。还缺少一个描述符，可以捕获两个域中的特性，并为**跨域任务（例如，二维到三维内容检索）**量身定制。

主要贡献

一种新颖的学习型跨域描述符（LCD），使用双自编码器体系结构和三元损失来学习的设置，会强制2D和3D自编码器在共享的潜在空间表示中学习跨域描述符。
一个约140万个2D-3D对应的新的公共数据集，用于训练和评估跨域描述符匹配。基于SceneNN和3DMatch构建了数据集。
验证的跨域描述符的鲁棒性的应用。将描述符用于解决单独的2D（图像匹配）和单独的3D任务（3D配准），然后再应用于2D-3D内容检索任务（2D-3D位置识别）。实验结果表明，即使不是为特定任务量身定制的描述符的描述符在所有任务中的性能也可以与其他最新方法相媲美。

目的

学习一个跨域描述符
找到两个映射：f : R^(W×H×3)→ D 和 g : R^(N×6)→ D，分别将2D和3D数据空间**映射到一个共享的隐空间 **D⊆ R^(D)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nkGkRv6D-1663171241843)(%E5%9B%BE%E7%89%87/image-20220914223358498.png)]

提出了: 一种新颖的双自编码器架构，来学习描述符

2D自编码器

3D分支

重建彩色点云

为了实现共享表示

两个自编码器，通过优化三元损失，将的bottlenecks捆绑在一起
最终的训练损失，包括如下：
1. 光度损失：2D自编码器的损失，由光度损失定义，光度损失是输入2D图像块与重构色块之间的均方误差
  
  $\frac { 1 } { W \times H } \sum _ { i = 1 } ^ { W \times H } \| I _ { i } - \overline { I } _ { i } \| ^ { 2 }$
2. 倒角损失：为了优化3D自编码器网络，需要计算输入点集和重构点集之间的距离。通过倒角距离测量该距离
  
  $\left. \begin{array} { r } { L _ { \text { chamfer } } = \max \{ \frac { 1 } { | P | } \sum _ { p \in P } \min _ { q \in P } \| p - q \| _ { 2 } , } \\ { \frac { 1 } { | \overline { P } | } \sum _ { q \in \overline { P } } \min _ { p \in P } \| p - q \| _ { 2 } \} } \end{array} \right.$
3. 三元损失：为了在由2D和3D分支，生成的嵌入中实现相似性，即2D图像块及其对应的3D结构，应具有相似的嵌入，采用三元损失函数。
  
  损失最小化锚点和正样本之间的距离，最大化锚点和负样本之间的距离。
  
  $\text { triplet } } = \max ( F ( d _ { a } , d _ { p } ) - F ( d _ { a } , d _ { n } ) + m , 0 )$
总的损失函数：

$\alpha \cdot L _ { m s e } + \beta \cdot L _ { \text { chamfer } } + \gamma \cdot L _ { \text { triplet } }$