YOLOv2借鉴SSD的思路对YOLOv1进行了一系列改进,更像是SSD的升级版
-
引入了anchor box的概念,有参考,学习到的目标框更加准确,且一个栅格可以识别多个物体。还对其进行了改进
-
对anchor box的选取采用k均值聚类,而非像Faster RCNN里人工选择
-
目标框定位方法的改进,对于定位坐标,Fasster RCNN 学习的是相对于anchor box的偏移参数,由于没有限制,中心点可以是图像的任意点,而YOLO v2学习的是相对于某个栅格的偏移参数,中心点的学习由一个sigmid函数限制在该栅格内,能更快收敛,稳定性更好。
-
-
细粒度特征(fine grain features)
-
简单添加一个 pass through layer,把浅层特征图连接到深层特征图
-
(类似resnet中的做法(resnet中应该是叠加,但是这里是通道串联),而SSD是直接将不同卷积层得到的特征图输出到末尾)
-
-
-
换为全卷积网络
-
可以适应不同尺寸的输入
-
-
多尺度训练(Multi-Scale Training)
-
训练时随机选择新的输入图像尺寸,使得网络可以适应多种不同尺度的输入
-
-
Batch Norm
-
可以使网络快速收敛,且有正则化效果,去掉了dropout
-
YOLO9000( YOLO9000: Better, Faster, Stronger)
YOLO9000是在YOLOv2的基础上得到的,相比于YOLO v2,YOLO9000 具有更强大(Stronger)的检测功能,可以检测出更多的类别
-
joint classification and detection(联合训练分类和检测)
-
采用这种联合训练,YOLO9000从COCO检测数据集中学习如何在图片中寻找物体,从ImageNet数据集中学习更广泛的物体分类。 使该系统可以识别超过9000种物品
-
-
Dataset combination with WordTree
-
使用WordTree把多个数据集(coco和imagenet)整合在一起
-
YOLOv3
不仅速度快,而且准确率高,检测小物体的能力也得到了很大提升
-
多尺度预测 (借鉴了FPN的思路)
-
通过加入不同卷积层的特征,进行多尺度检测,采用FPN的做法,不仅利用不同特征图分别检测,还将不同尺度的特征图进行融合再检测。
-
每种尺度预测3个box, anchor的设计方式仍然使用聚类,得到9个聚类中心,将其按照大小均分给3中尺度.
-
尺度1: 在基础网络之后添加一些卷积层再输出box信息.
-
尺度2: 从尺度1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出box信息.相比尺度1变大两倍.
-
尺度3: 与尺度2类似,使用了32x32大小的特征图.
-
-
更好的基础分类网络(类ResNet)和分类器
-
仿ResNet, 与ResNet-101或ResNet-152准确率接近,但速度更快,新网络结构Darknet-53(比以前的网络层数更深,YOLOv2为Darknet-19)
-