- two-stage:以R-CNN系列为代表,这类方法通常包括两个部分,第一部分先使用selective search、卷积神经网络等筛选出一些proposal boxes,然后第二部分再对这些proposal boxes进行分类和回归。这就相当于进行了两次分类和回归,因此检测的准确率较高,但是可想而知检测的速度也就比较慢了。
- one-stage:以YOLO为代表,这类方法的主要思路就是在图片的不同位置进行密集采样,然后使用CNN网络提取特征并直接进行分类和回归,整个过程只要一步就可完成。这种方法的优势是检测速度快,但是检测的准确率却不是很高。
特点:
1. 也是一阶段的网络,即
2. SSD将每次卷积得到的特征图(feature map)都进行检测,即基于特征金字塔(Pyramidal Feature Hierarchy)的检测方式。参考
3. 一次完成目标定位与分类,但是对特征图(feature map)进行卷积来检测目标。不是YOLOV1的全连接层,会丢失很多空间的信息。
4. 引入先验框(Prior Box) 这些特征图层上面的每一个点构造6个不同尺度大小的先验框,参
5. 将所有特征图上得到的输出结合起来,最后通过NMS得到检测结果。
这是通过观察 SSD 网络结构得出的大概流程。
细节:
1. 损失函数
损失函数是 交叉熵 + Smooth L1 loss,一个分类,一个回归边框位置,参考