bounding box的简单理解

博主分享了对深度学习目标检测中Bounding Box的理解过程,从OverFeat论文的困惑到RCNN的理解。解释了Bounding Box并非直接学习坐标,而是通过学习变形比例进行目标检测。建议在遇到理解难题时,多参考相关资料以避免误区。
摘要由CSDN通过智能技术生成

1. 小吐槽

OverFeat是我看的第一篇深度学习目标检测paper,因为它是第一次用深度学习来做定位、目标检测问题。可是,很难懂。。。那个bounding box写得也太简单了吧。虽然,很努力地想理解还找了很多博客、论文什么。后来,还是看RCNN,总算有点理解。

2. 对bounding box的误解

我一直以为卷积网络最后可以得到四个值:分别表示学习到的bounding box坐标,然后回归的目标是将这四个坐标与ground truth的四个坐标进行比较回归。其实不是这样的!正文如下

3. bounding box

(1) 一开始会有预测的边框值输入。原来的分类问题只是输入一张图,但是现在对于输入的图还有它在原图中的位置信息。比如滑动窗口、RCNN中selective search给出的区域提案等,产生用于分类判断的区域$P$

(2) 输入的图会通过卷积网络学习提取出特征向量$\phi_5(P)$

(3) 目标检测的一个目标是希望最后的bounding box(P)和ground truth(G)一致,但是实现方法并不是学习坐标,而是学习变形比例:包括两个部分,一个是对边框(x, y)进行移动,一个是对边框大小(w, h)进行缩放

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值