Segmentation-driven 6D Object Pose Estimation


结构图

1 物体分割

  物体分割网络分支基于encoder-decoder形似的网络,encoder部分采用了YOLOv3的Backbone Darknet-53,decoder部分并没有上采样得到原图尺寸的结果,所以分割的基本单位不是像素,而是文中所说的grid cell。

2 关键点回归

  这里对物体6D位姿估计也是通过回归三维BBox的二维投影点坐标,不过并不是通过全局的回归,而是每个属于该物体的grid cell都进行关键点的回归。网络结构部分和分割分支一样也是encoder-decoder范式,两者共用encoder部分,区别位于输入张量的通道维,分割阶段输出张量的通道维为K+1(K是物体的总类),回归阶段输出张量的通道维是3N(N是每个物体的关键点个数,每个关键点预测两个坐标偏移值,外加一个置信值)

3 推理阶段

  推理阶段,分割结果显示是物体的grid cell,对于每一类,对该类的grid cell预测的关键点进行聚类以便处理多实例的情况,然后再根据置信度的值,选择前10个grid cell, 采用RANSAC版的EPnP求解位姿。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值