综述:
将物体检测任务(划分边界框和类别的可能性)作为回归问题来解决。
速度非常快,但是可能产生定位的误差,相比于rcnn,减少了假阳性。
从上图可以看出结构非常简单
优势:
1、速度非常快
2、处理全局的信息。在 训练和测试的使用看到了整个图像,对类别和外表都进行编码。相比于faster rcnn减少了近一半的假阳性。
3、yolo学习归纳重新表达物体的特征。所以能够更加适应新的领域。在后面的实验中作者对行人进行检测,取得了相对较好的效果。
不足:
定位不够精确,特别是对与小物体。
整体结构:
从全局特征出发,预测定位框。同时针对所有的类预测所有的边界框。
如上图,将输入的图片分为SxS的网格,如果物体的中心落入某个网格,该网格就负责预测预测该物体。
每个网格预测B个边界框和置信度confidence(反映了边界框包含物体的confidence和边界框定位的准确度)
confidence为: