1 物体分割
物体分割网络分支基于encoder-decoder形似的网络,encoder部分采用了YOLOv3的Backbone Darknet-53,decoder部分并没有上采样得到原图尺寸的结果,所以分割的基本单位不是像素,而是文中所说的grid cell。
2 关键点回归
这里对物体6D位姿估计也是通过回归三维BBox的二维投影点坐标,不过并不是通过全局的回归,而是每个属于该物体的grid cell都进行关键点的回归。网络结构部分和分割分支一样也是encoder-decoder范式,两者共用encoder部分,区别位于输入张量的通道维,分割阶段输出张量的通道维为K+1(K是物体的总类),回归阶段输出张量的通道维是3N(N是每个物体的关键点个数,每个关键点预测两个坐标偏移值,外加一个置信值)
3 推理阶段
推理阶段,分割结果显示是物体的grid cell,对于每一类,对该类的grid cell预测的关键点进行聚类以便处理多实例的情况,然后再根据置信度的值,选择前10个grid cell, 采用RANSAC版的EPnP求解位姿。