1 背景介绍
目标检测,object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。
目标检测要解决的问题有两个:物体在哪里,物体是什么的整个流程问题。
目标检测问题的难点:物体的尺寸变化范围很大;摆放物体的角度,姿态不定;而且可以出现在图片的任何地方;物体还可以是多个类别。
目前主要算法分两类:1) 候选区域/框 + 深度学习分类;2) 基于深度学习的回归方法
目标检测中有很大一部分工作是做图像分类。对于图像分类,不得不提的是2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上,机器学习泰斗 Geoffrey Hinton 教授带领学生Krizhevsky使用卷积神经网络将ILSVRC分类任务的Top-5 error降低到了15.3%,而使用传统方法的第二名 top-5 error高达 26.2%。
此后,卷积神经网络CNN占据了图像分类任务的绝对统治地位。
2 候选区域+深度学习
通过提取候选区域,并对相应区域进行以深度学习方法为主的分类的方案,如:
2.1 R-CNN(Selective Search + CNN + SVM)
先找出图中目标可能出现的位置,即候选区域(Region Proposal)。
利用图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千甚至几百)的情况下保持较高的召回率(Recall)。
有了候选区域,剩下的工作实际就是对候选区域进