YOLO
yolo的基本思想是使用一个端到端的CNN直接预测目标的类别和位置,相对two-stage,yolo实时性高,但检测精度低。YOLO每个边界框只预测两个框,主体结构GoogLeNet,由24个卷积层和2个FC层组成。
YOLOv2
YOLOv2针对yolov1两个缺点:
- 低召回率
- 低定位准确率
改进:
- YOLOv2在卷积层后添加了BN,加快收敛速度,防止过拟合
- v2的卷积特征提取器在进行检测任务之前,先在高精度图片上调优10个批次,这样能使检测模型提前适应高分辨率图像
- v2采用k-means算法进行聚类获取先验框大小,聚类没有采用欧式距离,而是采用1 - IOU ,这样使其更适合于检测任务。
- v2直接在预先设定的anchor上提取特征,YOLO使用卷积神经网络作为特征提取器,v1是anchor-free,v2则借鉴Faster R-CNN思路采用anchor-based
- v2将图像 448 x 448变为416 * 416,经过32倍下采样后,图像变为13*13,长宽都是奇数,可以有效地识别出中心
- v2 将不同大小的特征图结合起来做物体检测,具体来说将最后一个池化层的输入 26 * 25 _512 经过Passthrough Layer变成13_13_2048,再与池化后的13_13*1024结合起来一起进行物体检测
- v2使用不同尺寸图片同时训练网络,每10个epoch就改变输入图像的大小