全文共4608字,预计学习时长12分钟
图源:unsplash
本文将讨论目标检测的基本方法(穷尽搜索、R-CNN、Fast R-CNN和Faster R-CNN),并尝试理解每个模型的技术细节。为了让经验水平各不相同的读者都能够理解,文章不会使用任何公式来进行讲解。
检测螺母和螺栓-克里斯·耶茨(Unsplash)
开启目标检测的第一步
这是只鸟还是架飞机?—— 图像分类
目标检测(或识别)基于图像分类。图像分类是通过上图所示的像素网格,将图像分类为一个类类别。目标识别是对图像中的对象进行识别和分类的过程,如下图所示:
为了使模型能够学习图像中对象的类别和位置,目标必须是一个五维标签(类别,x, y,宽度,长度)。
对象检测方法的内部工作
一种费机器(奢侈计算)的方法:穷举搜索
最简单的目标检测方法是对图像的各个子部分使用图像分类器,让我们来逐个考虑:
· 首先,选择想要执行目标检测的图像。
· 然后将该图像分割成不同的部分,或者说“区域”,如下图所示:
· 把每个区域看作一个单独的图像。
· 使用经典的图像分类器对每幅图像进行分类。
· 最后,将检测到目标的区域的所有图像与预测标签结合。
这种方法存在一个问题,对象可能具有的不同纵横比和空间位置,这可能导致对大量区域进行不必要的昂贵计算。它在计算时间方面存在太大