Stratified Transformer for 3D Point Cloud Segmentation论文阅读笔记

最新推荐文章于 2023-08-04 20:46:10 发布

liu liu liu

最新推荐文章于 2023-08-04 20:46:10 发布

阅读量733

点赞数 2

文章标签： transformer 深度学习机器学习论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dagezi_186/article/details/130715878

版权

任务概述

通过注意力机制提取点云中点的特征，通过这个特征预测点云中点的类别。

论文创新点

1.Transformer结合U-net，融合不同尺度的点云特征。

2.提出一种分层注意力机制，较密集的近程点和较稀疏的远程点被采样在一起以形成关键字，从而实现了显著扩大的有效接受范围，而引起的额外计算可以忽略不计。

3.在Point Embedding中，传统方法是用点云中点的位置编码，这里提出了一种新的方法：Contextual Relative Position Encoding结合上下文关系的位置编码。

Stratified Transformer 分层注意力机制

Vanilla Version 初始版本

window-based self-attention

将三维空间分成一个个不重合的window，每一个点只从同一个window下的所有点中通过注意力机制提取特征。注意力机制提取的特征过程如下面公式所示：

若每一个窗口下的点的平均数量为k，点云中点的总数量为N，则总窗口数量为N/k，计算复杂度为：

Stratified Key-sampling Strategy.

初始版本存在的问题：感受野太小，仅仅限制在一个窗口内。无法捕获远距离对象上的远程上下文依赖关系，从而导致错误预测。

如何既能捕获远距离对象上的远程上下文依赖关系，又不会增加太多计算量？

如上图所示，将密集的点云通过farthest point sampling采样，将三维空间用较大的窗口分割，将query（绿色星星）所在的小的dense keys网格中的点和大的sparse keys网格中的点合并，作为这个query要查询的点。

小trick:如何让各个window中的点之间交流特征？作者采用shifted windows策略，如下图所示，相邻的两个Transformer bolcks中三维空间window的划分移动1/2Swin,这样可以使两次同一个window涵盖不同的点。

Contextual Relative Position Encoding

传统的位置编码：通过MLP将位置信息映射到高维度。导致不同的key之间的位置编码都是相似的。如下图所示，仅仅使用MLP进行位置编码，因为位置相似，所以编码得到的特征相似，注意力机制得到的注意力都是相似的（如下面中间图，都是黄色的）。

Contextual Relative Position Encoding方法：

首先将第t个窗口下的kt个点的坐标用矩阵p表示：

定义同一窗口下点与点之间的关系矩阵r，用来表示同一窗口下第 i 个点和第 j 个点x、y、z坐标差异。

然后将relative xyz coordinates r映射到位置编码

定义三个可学习的查询表tx,ty,tz,如下图所示

将r的值域分成L份，如图所示：

则该窗口中的点i和点j之间的坐标差所对应特征矩阵中的向量下标可由下面公式算得，其中m=1,2,3,对应上面tx,ty,tz三个表。

通过下标取三个表中提取行向量，加起来，作为点i和点j之间的坐标差异编码成的特征向量用ei,j表示，如下图：

ei,j组成的特征矩阵如下图所示，其中的一个e1,2用橙色表示出来了，便于理解。

位置编码和query和key的特征向量进行点积，获得位置偏差pos_bias。

使得注意力不仅要关注query和key的相似度，还要关注query和key的位置偏差即Contextual Relative Position Encoding。

与原始版本对比：

更加通俗的理解：

传统的注意力机制只在输入点云Point Embedding时加入positional encoding，但是这种细粒度的位置信息可能在深层神经网络中丢失。Contextual Relative Position Encoding做的就是在每次计算注意力的时候加上一个包含queryi和keyj位置偏差的向量。

实验结果

论文原文

2203.14508.pdf (arxiv.org)

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Stratified Transformer for 3D Point Cloud Segmentation论文阅读笔记

注意力机制在三维点云语义分割任务中的使用：通过注意力机制提取点云中点的特征，通过这个特征预测点云中点的类别。
复制链接

扫一扫

liu liu liu CSDN认证博客专家 CSDN认证企业博客

码龄5年

3: 原创

154万+: 周排名

121万+: 总排名

2147: 访问

: 等级

43: 积分

216: 粉丝

7: 获赞

3: 评论

23: 收藏

私信

关注

热门文章

最新评论

TPVFormer论文阅读笔记
LeeZG_: 你好，能问一下这个三维语义占用预测和3d点云分割有什么关系吗
Stratified Transformer for 3D Point Cloud Segmentation论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
TPVFormer论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
从Transformer到BEVFormer(注意力机制在CV中的使用)
CSDN-Ada助手: 恭喜您的文章入围每天最佳新人「2023-03-19」榜单, 排名「7」, 一定要再接再厉哦, 创作更多高质量博客, 争取拿到更好成绩, 全部的排名请看: https://bbs.csdn.net/topics/614136979 更多创作活动请看: 原力计划S5 -- 寻找1000位优秀创作者: https://marketing.csdn.net/p/5352d383bcbb5346dc3430e9643d3255?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 「IT女神勋章」挑战赛--以创作之名致敬女性开发者: https://activity.csdn.net/creatActivity?id=10305&utm_source=csdn_ai_ada_redpacket
从Transformer到BEVFormer(注意力机制在CV中的使用)
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/614136979。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。