【6Dof位姿估计】Multi-path Learning for Object Pose Estimation Across Domains论文理解


论文链接:arxiv

解决什么问题

无监督的6Dpose估计,即使没有没见过的物体也能处理


本文创新点\贡献

  1. 作者提出了一个Multi-path的编码器结构,包含一个编码器和多个解码器,这个编码器可以学习公共特征,让所有的实例共享一个latent空间,这个编码器以view敏感的方式编码那些在训练期间没见过的对象视图,然后解码器是针对每个不同实例进行处理的
  2. 这种方法是无监督的,不需要标注数据,只需要用3D model来合成数据训练就行了,可以通过排除扰动的方式来弥补真实数据和合成数据之间的差异

前人方法

基于大量数据且特定实例,不灵活


本文IDEA来源

AAE [ Implicit 3d orientation learning for 6d object detection from rgb images ] 2018 ,提取实例级的物体表达特征


方法

在这里插入图片描述

在这里插入图片描述

方法概述

分成两阶段,初始化和微调:

  1. 初始化:假定现在有A类物体的model,用A类的model来训练MP编码器并且生成codebook,codebook存放target姿态的图像编码,MP编码器的输出可以称之为“code”,将code和codebook中的target视图作比较,取相似度的cosine分数最高的target视图为结果,该物体的初步pose就取自这个target视图。
  2. 微调:交替优化,因为MP编码器有位移不变性,所以优化旋转起手

原理和优点

  1. MP编码器获得的是物体视图的方向的category不可知外形依赖的描述符
  2. 在位置物体上的迭代微调,比DeepIM效果好
  3. 迭代微调还能消除离散误差,暗含一个latent code,能映射所有的SO(3)

Multi-Path Encoder-Decoder

功能
解码器都是辅助编码器的, 为了能让编码器学的好,之后就可以舍弃解码器,只留下编码器,这个方法能学习到交叉表达、共享特征

编码器算是个基础backbone,每种类别的东西都能学一点

结构
由一个编码器 z ∈ R 128 z\in R^{128} zR128,还有n个解码器 Λ j \Lambda_j Λj组成,其中 j = 1 , . . . , n j=1,...,n j=1,...,n,n是不同的物体形状数量

z就是解码器和数据增强合二为一

输入和输出
输入也做了增强,异类batch B B B包含多种物体;输出的编码是分开的,每个解码器只接受对应物体shape的code。

loss
L m ( B ) = ∑ j = 1 b ∑ k = 1 n I ( s j = k ) ∣ ∣ x j − Λ k ( z j ) ∣ ∣ 2 L_m(B) = \sum^b_{j=1}\sum^n_{k=1}\Iota(s_j=k)||x_j - \Lambda_k(z_j)||_2 Lm(B)=

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值