IROS 2021 | PTT:把Transformer应用到3D点云目标跟踪任务

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

PTT: Point-Track-Transformer Module for 3D Single Object Tracking in Point Clouds

d9efff9f7983c17cdfddc4b6e0d84cf0.png

论文已于今年六月份中稿机器人领域顶会IROS 2021。

论文地址:https://arxiv.org/abs/2108.06455

作者单位:东北大学(沈阳)

代码整理中,即将开源:

https://github.com/shanjiayao/PTT

实验视频链接:

bilibili:  https://www.bilibili.com/video/BV1Uf4y157UE/

YouTube:https://www.youtube.com/watch?v=lttRtYXxUic

主要贡献:

  • 一个针对基于点云三维单目标跟踪的Point-Track-Transformer (PTT)模块,可以在追踪过程中有效权衡点云特征以聚焦于更深层次的目标线索。

  • 一个嵌入了PTT组件的PTT-NET网络,可进行端到端的训练。这是第一个基于点云应用transformer到三维目标跟踪任务的方法。(截止投稿时)

51fee86d5b5564142f473bc2908488a7.png

图1: 与现有的三维单目标跟踪方法相比,我们的PTT模块在计算相似度特征后根据特征的重要性对特征进行加权,以提高跟踪器的性能。

摘要:

三维单目标跟踪是机器人技术中的一个关键问题。本文提出了一种基于点云的三维单目标跟踪的transformer 模块:Point-Track-Transformer (PTT)。PTT模块包含特征嵌入、位置编码和自注意力三个模块特征计算。特征嵌入旨在将语义信息相似的特征在嵌入空间中放置得更近。位置编码用于将原始点云坐标编码为高维可分辨特征。自注意通过计算注意权重产生更细化的注意力特征。此外,我们将PTT模块嵌入到开源方法P2B中来构建PTT-NET。在KITTI数据集上的实验表明,我们的PTT-Net显著的超越了现有的基于点云的单目标跟踪方法(涨了10个点)。此外,PTT-Net还可以在 1080Ti GPU上实现实时性能(40fps)。我们的代码是面向机器人社区的开源代码,网址是https:https://github.com/shanjiayao/PTT。

30f4a7fb4a48efa0d0ed2bfcffeade46.png

图2: PTT组件结构示意图

方法:

特征嵌入:该工作采用线性层完成特征嵌入操作,对输入点云特征进行映射;将点云特征从D维映射到M维,用于将语义信息相似的特征在嵌入空间中放置得更近。

位置编码:由于三维点云坐标本身自带位置属性,就是位置编码的自然输入。因此,我们直接利用输入的点云坐标作为位置编码模块的输入。此外,我们利用相对坐标使网络更好地捕捉点与点之间的空间相关性和局部几何形状信息。

自注意力:自注意力部分,我们采用vector attention的结构来计算对输入特征进行加权。公式如下:

c8e3f5a05b268a3600e04613f679496f.png

PTT-Net:

为了证明我们的PTT组件的有效性,我们将我们的PTT组件嵌入到开源工作P2B中,构建了我们的PTT-Net网络。我们分别将PTT组件加在P2B网络的种子投票阶段和提议框生成阶段。具体如下图所示:

ffbb7e9c9b2770080804a18d07f9bc58.png

图3: PTT-Net网络结构示意图

定量实验结果:

表1:KITTI数据集上车辆类别跟踪结果

1601a5542b40ee0b551ac5e02a8c2b36.png

相较于baseline方法,涨了10个点。

定性实验结果:

0d5dd306702d5c5f961f724a7ca67914.png

63e5866381bde5ec40f31762b451671c.png

加入PTT组件后,算法在点云稀疏场景下,跟踪性能有显著提升。

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看1e1fc70887a6250f99bdb792dd5bf3f6.gif

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值