首次将深度学习和卷积神经网络用于目标检测并取得显著性能提升。
图像分类、定位、目标检测、语义分割、实例分割、关键点检测(关节等等输出点的坐标)
图像分类(输入图像输出类别)目标检测(识别物体类别)语义分割(识别每个像素的类别)实例分割(在语义分割基础上识别多个物体)
表现形式:目标检测->画框 语义分割和实例分割是抠图
目标检测分为两阶段和但阶段
两阶段:预选框可能变为预测框
(红色:图像分类 绿色:目标检测)
(参考文献)
R-CNN 基本原理
输入图像->某种方法获得候选框(2k)(本文用到的是selective search)->将候选框缩放成227*227的正方形->将这些正方形逐一喂入卷积神经网络中->提取一个4096维的全连接层的特征->用线性支持向量机进行分类或者用于Bbox reg
每个步骤都需要单独优化
每个类别都需要训练一个svm
提取候选框
利用聚类的方法在图像中找到一些初始的大小颜色相似度一致的区域,再加权合并
缩放
原始范围乘卷积核
总结:
1,训练了一个高表达能力的卷积神经网络,以及这个网络提供了自底向上的候选框特征,用其进行定位和语义分割。2,在VOC的目标检测数据集上数据较少,我们现在ImageNet这个大规模辅助系统上预训练一个模型,再把它拿到指定任务上微调,这样在小数据集上也能达到很好的性能。因为我们这个方法包含了候选框提取(region proposal),所以我们把这个算法称为R-CNN: Regions with CNN features.