目标:理解对象检测
为了理解对象检测,我们将从对象定位开始。对于一张图像,为了能够定位对象,我们首先要该对象是什么。在这种情况下是猫,我们还想为该特定对象提供一个边界框,然后说该边界框对应于一只猫,因此对象定位就是找到什么,以及在哪里,图像中存在单个对象,因此我们只能有一个对象。
现在对象检测另一方面是查找图像中多个对象的内容和位置,以便进行图像分类(最简单的任务)。图像分类可能只想说出图像中的内容,但是对于对象定位中,我们还想说出该特定对象在图像中的位置。然后更一般的情况中是,我们检测多个对象,并提供多个对象的定位,这就是对象检测。
所以你知道如何开始,我们如何进行对象定位。
从定位开始
首先你知道图像分类,我们有一个图像,我们将通过一些CNN,VGG或resnet或类似东西发送它,我们将得到一个输出,我们拥有不同类的一些输出节点,所以假设我们有猫有狗数据集,所以我们将得到它是猫的概率的预测,我们将得到图像中他是狗的概率。
现在为了对象定位,我们将添加四个对应的附件节点,该特定对象的边界框。用四个x和y表示的坐标