《论文阅读》Learning multiview 3D point cloud registration

留个笔记自用

Learning multiview 3D point cloud registration

做什么

首先先得理解点云是什么
点云的概念:点云是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合,在获取物体表面每个采样点的空间坐标后,得到的是点的集合,称之为“点云”(Point Cloud)。
点包含了丰富的信息,包括三维坐标X,Y,Z、颜色、分类值、强度值、时间等等,不一一列举。在这里插入图片描述
一般的3D点云都是使用深度传感器扫描得到的,可以简单理解为相比2维点,点云是3D的采样
在这里插入图片描述

做了什么

在这里插入图片描述
3D point cloud registration,3D点云配准,简单来说就是有一组潜在重叠的3D点云,这组数据可以理解成分别覆盖环境的一小部分也就是局部区域,将这一组作为输入,用其创造输出一个全局的点云图作为整体表示
首先先是定义输入,定义一个有潜在覆盖的点云集合S
在这里插入图片描述
目的是为了得到一个完整的扫描全局结果,这里是想对每个点云集都得到一个转换矩阵
在这里插入图片描述
这里文中没有解释SE(3)是什么,于是一脸懵逼地上网查
在这里插入图片描述
也就是R是旋转矩阵,t是三维的位移向量
然后S可以通过联系构建一张图G
每个顶点代表一个点集,边Si,j包含了Ri,j和ti,j即两个点转换矩阵中的旋转角度信息和距离信息。边之间需要满足约束
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这些意思大致均是为了保证i,j和j,i的方向相反性,并且满足旋转矩阵和方向向量的同积性
然后就是具体的Pairwise registration of point clouds也就是点云配准方法
在这里插入图片描述
首先是成对匹配,从点云集S中取出两个不同的点云集P和Q,两者的维度分别是NP×3即NP个点和NQ×3。就像上面说的,配准的最终目标就是得到两者之间的关系矩阵Ri,j和位移向量ti,j使两张图尽可能地重合
在这里插入图片描述
φ(p, Q)是一个映射函数,将点云集P中的点p映射至点云集Q中。wl是假定对应的权重,即
在这里插入图片描述
以上是二图配准的方式,这个式子可以理解为Ri,j和ti,j作用于点p(旋转+平移后)和映射点之间的距离,目的就是使这个距离最小,保证两者配准度最好
接下来回到多视图配准,将旋转和平移拆开来
在这里插入图片描述
在这里插入图片描述
这里的意思就是说在二者配准的基础上,对每个点云集Si均计算最小化它的旋转R和平移t。上面这种方法适合迭代实现,这里又称为IRLS算法
在这里插入图片描述
在这里插入图片描述
这里的意思就使对于第k次迭代,就可以根据Mi,j对点云集Q进行改变。另外先前迭代比如k-1次中的参数w和残差r可以作为下一次函数中的加权信息
在这里插入图片描述
在这里插入图片描述
这里的大概意思就是说,迭代式进行下去每一步的权重会影响下一步的对应函数。

怎么做

在这里插入图片描述
这里就是整个网络的具体结构,也是对上面各种在这里插入图片描述
函数的解释
首先是输入,多个点云集和
在这里插入图片描述
首先是映射函数φ,这里用到了Fully_convolutional_geometric_features(FCGF)在这里插入图片描述
来获取它的点云集特征
假设FP是点云集P经过FCGF encode的结果,FQ则是Q encode的结果
然后在这个高维特征中,利用最近邻来建立逐点的映射函数φ
在这里插入图片描述
这里引入了一个规则s来引入概率
在这里插入图片描述
fp是点p经过encode的结果,t是一个控制变量,当t趋于0的时候,φ趋近于确定性最近邻搜索
然后定义一个训练的方法在这里插入图片描述
这里用到了对抗学习的方法,P是一组随机抽取的小批量数据中的正对,mn和mp均为margin也就是间隔
然后是加强提出了一个配准网络,创造了一个block在这里插入图片描述
将对应关系作为输入,输出权重
在这里插入图片描述
然后像上面所说的迭代式跟进将w(k)定义为
在这里插入图片描述
也就是这么一个iterate的过程
在这里插入图片描述
这里的LOSS由两个组成
在这里插入图片描述
Lclass就是普通的cross entropy
在这里插入图片描述
这个LOSS用于惩罚与GT之间转换参数Mi,j的差距
在这里插入图片描述
然后是对于图G的,得到了Mi,j后,其中的边encode一个置信度ci,j,这里包括了两个部分,一个是从转换估计中导出的clocal和转换同步中导出的cglobal即一个是上面的transformation estimation,一个是 transformation synchronization
在这里插入图片描述
这里的Xconf(大写)代表的是f函数的倒数第二层的输出结果,即registration块的倒数第二层
在这里插入图片描述
这里的δij是全局特征和内联因子的比率,即是一个参数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最后就可以定义ci,j
在这里插入图片描述
总的来说,这里的置信度就等于说是对每张图至最终结果的attention
最后又定义了一个loss在这里插入图片描述
在这里插入图片描述

总结

1.不知道是我理解问题还是论文问题,这篇论文绝对是最难理解的,没有之一,感觉没有什么逻辑性读下来。看完一遍感觉头昏脑胀,还是完全不理解,只能理解大体思路。有空得看看这篇的代码,因为我感觉这个应用还是比较有趣的

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: 对比多视角编码(Contrastive Multiview Coding)是一种用于自监督学习的方法,它通过对同一样本的不同视角进行编码,来学习样本的特征表示。该方法可以在无需标注数据的情况下,从大量未标注的数据中学习到有用的特征表示,从而提高模型的泛化能力和性能。 ### 回答2: 对比多视图编码(Contrastive Multiview Coding, CMC)是一种新兴的自监督学习方法,是一种利用多个视角来学习数据特征的方法。相比于从传统的数据集中学习高级特征来说,CMC的作用在于通过理解不同数据视图之间的关系来代替手工标注或人为制造标签。 CMC方法将多个视角数据(例如从不同角度或时间拍摄的图像)随机组合进行研究,以便能够更好地训练出模型。这种方法的优点在于,它能够学习具有普适性的判别性特征,同时保留训练数据的复杂性。这意味着CMC方法在不依赖于大量标签数据的情况下,仍能够有效提供有用的表示特征。 CMC从理论上只需要一个loss function来完成整个模型的训练,这一点使它成为自监督学习中的热门方法之一。 它在应用中的一个重要应用是在计算机视觉领域,如图像分类、物体检测和语义分割等方面。它已经在许多计算机视觉任务中表现优异。 总之,对比多视图编码是一种适用于多视图学习的先进方法,因为它在利用不同视图之间的相似性来训练模型时非常有效,因此被广泛应用于计算机视觉领域。 ### 回答3: 对比多视图编码(Contrastive Multiview Coding,CMC)是一种新的自监督表示学习方法。它利用多视图(多角度、多尺度、多剪裁的)数据来学习特征表达,从而生成可区分、可重用的低维嵌入。该方法通常用于解决少标注数据问题,因为不像监督学习方法,它不需要标注在先。 CMC的核心思想是,使用互相独立的视角(通常指从不同的角度、尺度、或者剪裁方式上观察同一物体)来捕捉不同的特征信息,并学习如何将这些视角下的不同的低维特征嵌入到同一空间中。通过学习如何将这些特征的嵌入对样本之间的差异进行建模,在同一视角之外的样本之间也能够建立起有意义的对比关系。 具体的训练过程中,CMC通过分别对每个视角进行编码操作,为每个视角得到一个低维的特征表示,然后以最大化互相对比度的方式优化这些特征表达,让同一样本在不同视角下产生的嵌入向量更加接近,不同样本之间的嵌入向量相对较远,以此达到更好的分类效果。 总体而言,CMC具有可拓展性、半监督、不受领域限制等多样的特点,可以为许多计算机视觉任务提供有用的特征表示。此外,由于CMC利用无监督的自我学习机制,因此可以在无监督的情况下使用大规模数据,可以应用于数据集较少的任务中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值