bounding box的简单理解

最新推荐文章于 2022-06-15 09:22:20 发布

weixin_30555515

最新推荐文章于 2022-06-15 09:22:20 发布

阅读量6.7k

点赞数 5

文章标签： c/c++ matlab 人工智能

原文链接：http://www.cnblogs.com/coolqiyu/p/9445673.html

版权

博主分享了对深度学习目标检测中Bounding Box的理解过程，从OverFeat论文的困惑到RCNN的理解。解释了Bounding Box并非直接学习坐标，而是通过学习变形比例进行目标检测。建议在遇到理解难题时，多参考相关资料以避免误区。

摘要由CSDN通过智能技术生成

1. 小吐槽

OverFeat是我看的第一篇深度学习目标检测paper，因为它是第一次用深度学习来做定位、目标检测问题。可是，很难懂。。。那个bounding box写得也太简单了吧。虽然，很努力地想理解还找了很多博客、论文什么。后来，还是看RCNN，总算有点理解。

2. 对bounding box的误解

我一直以为卷积网络最后可以得到四个值：分别表示学习到的bounding box坐标，然后回归的目标是将这四个坐标与ground truth的四个坐标进行比较回归。其实不是这样的！正文如下

3. bounding box

(1) 一开始会有预测的边框值输入。原来的分类问题只是输入一张图，但是现在对于输入的图还有它在原图中的位置信息。比如滑动窗口、RCNN中selective search给出的区域提案等，产生用于分类判断的区域$P$

(2) 输入的图会通过卷积网络学习提取出特征向量$\phi_5(P)$

(3) 目标检测的一个目标是希望最后的bounding box(P)和ground truth(G)一致，但是实现方法并不是学习坐标，而是学习变形比例：包括两个部分，一个是对边框(x, y)进行移动，一个是对边框大小(w, h)进行缩放

最低0.47元/天解锁文章

weixin_30555515

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。