R-CNN等传统弊端:基本步骤:
- 通过select选取候选框,一般每张图2000个左右
- 对每张候选框图进行深度学习,提取特征
- 将特征送到分类器,如svm进行判别
- 使用精准回归对候选框进行修正
问题: - 训练速度慢,候选框之间存在大量的重复,提取特征速度慢
- 训练所需大量内存空间,大量的特征。
主要原因就是R-CNN在深度学习之前进行候选框提取,造成大量重叠的候选框需要进行特征提取。
改进:
FASTER-R-CNN在图像送入神经网络之后,才加入候选框信息,类别判断和位置精调统一用深度网络实现,不再需要额外存储(独立的分类器和回归调整)
FASTER-R-CNN介绍:
使用NN来处理region proposal,使用 共享卷基层 的概念,卷积后的特征图样是可以用来生成region proposal的,通过添加卷基层实现region proposal network,用来对特征图形成位置编码向量,对每一个位置输出objectness score和 regressed bounds for k region proposals.
IoU 简单来讲就是模型产生的目标窗口和原来标记窗口的交叠率。具体我们可以简单的理解为: 即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集,即为检测的准确率 IoU