YOLO中每一个grid cell 的两个 bounding box 是如何初始化的呢

刚刚也在想这个问题,突然想到这种解释,也不知道对不对,和大家讨论讨论。

感觉我们问这个问题的时候,关注的是预测时,给网络一张图片,网络就会给每一个格子选择两个bbox,而且有些时候某些bbox很好的框出了物体,感觉好神奇。

我感觉其实在刚开始训练的时候他肯定不会怎么智能马上预测出我们想要的bbox,肯定是经过多次训练,使预测bbox越来越理想。训练时,输出的数据里面有bbox的x,y,w,h,然后将预测出来的x,y,w,h和真实值比较,通过反向传播修改前面神经网路的参数,经过多次迭代,就能得到理想的bbox。

在测试时训练好的神经网络看到当前网格的一些信息,就能推测出应该用怎么的bbox。比如神经网络看见这只图像中狗的眼睛比较小,他给出的bbox的尺度就会小一点,然后依据嘴巴,脚,尾巴等信息,可以推测出bbox的中心。

神经网络是训练出来的,而不是人用硬编码写出来的,可能很多细节人也不知道他是怎么得到的。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值