目标分类、定位、检测和分割
分类:是什么
定位:在哪里?是什么?(单目标或数量固定的多目标)
检测:在哪里?分别是什么?(数量不固定的多目标)
分割:在检测的基础上,不再使用bounding box框出目标的位置,而是将目标和背景分离,找出目标的轮廓线。(图片来自博客)
目标定位的思路
看作回归问题。对于单个目标的定位,比较简单的思想就是直接看作是关于目标矩形框位置的回归问题,也就是把刻画矩形框位置信息的4个参数作为模型的输出进行训练,采用L2损失函数。对于固定的多个目标定位,也采用类似的方法,只不过输出由4个变成4*C个,C为需要定位的目标的类别数。这样,完整的识别定位问题的损失函数由两部分组成:第一部分是用于识别的损失,第二部分是用于定位产生的损失。显然这种方法对于目标数量固定的定位问题比较容易,当数量不定时(比如检测任务)就不适用了。
滑动窗口法。这种方法的一个典型代表是overFeat模型,它用不同大小的矩形框依次遍历图片中所有区域,然后在当前区域执行分类和定位任务,即每一个滑过的区域都会输出一个关于目标类别和位置信息的标签,最后再把所有输出的矩形框进行合并,得到一个置信度最高的结果。这种方法其实和我们人