论文小结：YOLO6D（Tekin）

最新推荐文章于 2024-05-01 09:56:08 发布

shangdong2023

最新推荐文章于 2024-05-01 09:56:08 发布

阅读量1.7k

点赞数

文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_45911911/article/details/120069346

版权

主要内容

将每个物体的3D模型用9个控制点表示，分别是外切包围盒的8个顶点以及3D模型的重心；算法输入为一个单幅完整的彩色图像，如图1(b)；使用图1(a)的卷积网络将图像划分成SxS的Cell，如图1(c)；网络的输出结果用SxSxD的张量表示，如图1(e)，D的维度为(9x2+C+1)，分别包含了9个2D投影点坐标(xi,yi) ，C个类别概率，以及一个置信值。如果某一个Cell的置信值较低，则删除该Cell。可视化结果如图1(d)。

9个2D投影点坐标说明：网络需要预测的9个点的坐标，包括8个角点和一个中心点。但是我们并不是直接预测坐标值，和yolo v2一样，我们预测的是相对于cell 左上角坐标的偏移。不过中心点和角点还不一样，中心点的偏移一定会落在cell之内（因为中心点落在哪个cell哪个cell就负责预测这个物体），因此通过sigmoid函数将网络的输出压缩到0-1之间，但对于其他8个角点，是有可能落在cell之外的，所以我们没有对8个角点预测添加任何限制。

参考链接

参考1：https://blog.csdn.net/dsoftware/article/details/97616707

参考2：https://zhuanlan.zhihu.com/p/41790888

参考3：https://blog.csdn.net/qq_44756223/article/details/98517113

注

该方法实时性比较高，但精度并不高。

原文中提到基于rgb输入方法的好处：虽然相对来说精度较低，但主动深度传感器耗电量大，这使得被动RGB图像的6D目标检测方法对移动和可穿戴相机更具吸引力。

将cad 模型点云中点的各个坐标轴极值位置进行组合，即得三维bondingbox 的八个顶点

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文小结：YOLO6D（Tekin）

主要内容将每个物体的3D模型用9个控制点表示，分别是外切包围盒的8个顶点以及3D模型的重心；算法输入为一个单幅完整的彩色图像，如图1(b)；使用图1(a)的卷积网络将图像划分成SxS的Cell，如图1(c)；网络的输出结果用SxSxD的张量表示，如图1(e)，D的维度为(9x2+C+1)，分别包含了9个2D投影点坐标(xi,yi) ，C个类别概率，以及一个置信值。如果某一个Cell的置信值较低，则删除该Cell。可视化结果如图1(d)。9个2D投影点坐标说明：网络需要预测的9个点的坐标，包括8个
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。