论文小结:YOLO6D(Tekin)

主要内容

将每个物体的3D模型用9个控制点表示,分别是外切包围盒的8个顶点以及3D模型的重心;算法输入为一个单幅完整的彩色图像,如图1(b);使用图1(a)的卷积网络将图像划分成SxS的Cell,如图1(c);网络的输出结果用SxSxD的张量表示,如图1(e),D的维度为(9x2+C+1),分别包含了9个2D投影点坐标(xi,yi) ,C个类别概率,以及一个置信值。如果某一个Cell的置信值较低,则删除该Cell。可视化结果如图1(d)。

9个2D投影点坐标说明:网络需要预测的9个点的坐标,包括8个角点和一个中心点。但是我们并不是直接预测坐标值,和yolo v2一样,我们预测的是相对于cell 左上角坐标的偏移。不过中心点和角点还不一样,中心点的偏移一定会落在cell之内(因为中心点落在哪个cell哪个cell就负责预测这个物体),因此通过sigmoid函数将网络的输出压缩到0-1之间,但对于其他8个角点,是有可能落在cell之外的,所以我们没有对8个角点预测添加任何限制。

参考链接

参考1:https://blog.csdn.net/dsoftware/article/details/97616707

参考2:https://zhuanlan.zhihu.com/p/41790888

参考3:https://blog.csdn.net/qq_44756223/article/details/98517113

  • 该方法 实时性比较高,但精度并不高。

  • 原文中提到 基于rgb输入 方法的好处:虽然相对来说精度较低,但主动深度传感器耗电量大,这使得被动RGB图像的6D目标检测方法对移动和可穿戴相机更具吸引力。

  • 将cad 模型点云中点的 各个坐标轴极值位置进行组合,即得三维bondingbox 的八个顶点

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值