两阶段目标检测算法:
R-CNN:
1.对图像进行Selective Search生成1K~2K个候选区域
2.将每个候选区域输入网络提取特征
3.将特征送入每一类的SVM分类器中,判读是否属于该类
4.使用回归器精细修正候选框的位置
具体的一些细节:
1.利用Selective Search 算法通过图像分割的方法得到一些原始区域。然后使用一些合并策略将这些区域合并,得到一个层次的区域结构,这些结构就包含可能需要的物体。
2.对每个候选区域使用深度网络提取特征
将2000个候选区域缩放到227 * 227,接着将候选区域输入到预先训练好的Alex net获取2000 * 4096维矩阵
3.将特征送入每一类的SVM分类器,判断类别
将20004096维特征与20个SVM组成的权值矩阵409620相乘,获得200020维矩阵,表示每个建议框是每个目标类别的得分。对上述200020维矩阵中的每一列及进行非极大值抑制提出重叠的建议框,得到该列中得分最高的建议框(VOC数据集有20类)
(算法的缺点:1.测试速度慢,Selective Search算法提取候选框花费大量时间,候选框之间存在大量重叠,提取特征操作冗余。
2.训练速度慢
3.训练所需空间大)
Fast-R-CNN
1.对输入的图像进行Selective Search得到1K~2K个候选区域
2.将