mAP
mean Average Precision:在每个类上的平均准确率
NMS
非极大值抑制
- 针对每个类的候选框,根据得分从大到小排序
- 取最大得分的候选框,依次和后面的候选框进行IoU计算,若大于阈值,则删除得分低的。否则认为图像中存在多个同类物体。
- 依次在得分较低的候选框上计算2,得到最终候选框。
这里有说可以在最后一步结果上删除候选框得分小于阈值的。但是完全可以在开始就做这一步呀。
selective search
选择性搜索
-
简单算法将图像划分成一个个小区域集合R
-
R中每个相邻区域相似度组成集合s
-
取s中最相近的两个区域,合并后添加入R
-
删除s中和3相关子集
-
计算新的相似度
-
循环到3,直至s为空
EdgeBoxes
Anchor Box
DPM
hard negative mining
难分样本挖掘
将分类错误的负样本划分为负样本继续训练。
代表算法:OHEM
image-centric sampling
FPN
特征金字塔网络;在每个尺度层面进行预测。用于RPN
RPN
proposal :大概位置
区域建议网络:
每个点有9个锚点,将9个锚点中的对象进行检测后回归,再进行非极大值抑制来得到最终需要的待检测框。
SVD
ROI Align
相对于ROI 池化的取整损失精度,采用了保留浮点数的方式,让结果更准确。
RoI Warping Layer
R-CNN
- 使用selective search选择约2000个候选框
- 对图像padding16后,将图像变形为227*227以适应AlexNet的输入
- 对每个候选框减去图像均值(预处理)后输入AlexNet产生2000*4096的特征矩阵
- 使用svm将每个候选矩阵分类,20个分类器这里,因为是svm是2分类
- 使用NMS进行筛选
- 使用回归器进行回归以修正结果
存在问题:慢,复杂。。
SPPnet
Fast-RCNN
- 对整幅图卷积,得到特征图
- 对原图进行selective search得到候选框
- 从2的候选框在特征图中取到特征框
- 通过池化得到相同大小特征框(ROI池化)就是每个max pooling的范围大小不固定。
- 将相同大小特征框输入全连接层得到固定大小特征向量
- 将5所得特征向量并行经过两个全连接层,分别得到softmax的类别输出和bounding-box的窗口回归。
- 对每个类非极大值抑制后,得到的特征框回归修正。
相对改进:
对整个图像进行一次卷积后,selective search的结果,选取特征区域。
取消了SVM,节约了存储空间
采用了SVD,优化全连接速度。
Faster-RCNN
- 对整幅图进行卷积,卷积的前半部分共享,产生的特征一部分用于继续后面的Fast-RCNN使用,一部分输入RPN网络
- 通过RPN网络得到候选框,其他同上Fast-RCNN
RPN训练时产生2000个,测试时300个。
MASK_RCNN
修改ROI pooling 为ROI Align的Faster-RCNN
FCIS
YOLO
同样也是对整幅图卷积,不过不再使用预测框+分类的方式,而是直接对结果回归。也有多个版本的变迁。
SSD
MobileNet
感觉这个网络就是一种速度和内存的优化吧。用于移动端