P4Transformer阅读

image.png
CVPR 2021
为了捕捉点云视频中的动态,通常采用点跟踪的方法。但是表示同一位置的点在不同帧中时有时无,使得计算精确的点轨迹非常困难,并且跟踪通常还依赖于点的颜色,因此在缺乏颜色信息的点云中容易失效。
对点云视频进行建模

贡献:

1.提出P4Transformer,在时空上建模原始点云视频。
2.为了嵌入时空局部结构,减少Transformer需要处理的数据,我们提出了点4D卷积。
下游任务:3D动作识别和4D语义分割。

Pipeline

image.png

Point 4D Convolution

用卷积捕获局部结构。
先对时空进行解耦。
image.png
卷积核的权重是位移相关的,不是共享的,由函数ζ生成。
image.png
⚪为元素级操作,如加法或乘积。
当Ft不可用时,函数实现为image.png
时空卷积区域的确定用的pstnet的方式,构建point tube。

Transformer

旨在根据输入的相似性合并相关的局部区域,使每个点具有更大的感受野。
将锚点坐标(x,y,z,t)和得到的局部特征输入到Transformer中。
image.png类似于一个embedding的过程。
对I进行自注意。
image.png
在整个点云视频上运行以捕获整个视频上的注意力信息,且使用了多头等机制进行增强。

下游应用

三维动作识别

先用4D卷积来编码时空局部区域。其次堆叠m个Transformer,以捕获所有编码局部特征的外观和运动信息。然后最大池化将变换后的局部特征合并为单一的全局特征。最后MLP层将全局特征转换为动作预测。

四维语义分割

可以看成point-wise的分类任务。由于用于分割的点云帧通常是高分辨率的,因此堆叠多个4D卷积,以指数级减少Transformer需要处理的点数。由于4D卷积减少了点数,增加特征传播层进行插值。使用基于k近邻的反距离加权平均(这里应该也是保存了原始点坐标)。
image.png

实验

三维动作识别

image.png
在MSR-Action3D上动作识别的准确率。
image.png
在NTU上动作识别的准确率对比。
image.png
在NTU上动作识别的运行时间对比。

四维语义分割

image.png
在Synthia上四维语义分割的mIoU对比。

消融实验

image.png
时间卷积步长和空间邻域范围的消融实验。
image.png
Transformer层数和多头注意力头数的消融实验。
随着Transformer层数的增加,P4Transformer可以达到更好的精度。然而,过多的层数会降低性能。这是因为,当网络变得更深时,梯度可能会消失或爆炸,使得网络难以训练。
image.png
帧级和视频级自注意力的消融实验。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值