迁移学习之物体定位与检测上
分类和定位
分类:给定一个图像,输入图像包含的对象的类别。
定位:给定一个图像,找到图像中对象所在的区域,即找出边界框。
数据集:一千个类别,每个类别有800张图像。
网络结构如上图,定位和分类可以同时训练也可以分别训练。
方法一:当做回归问题求解
分类是一个回归问题,可以将定位也当成回归问题,定位及找到对象所在边界框,边界框为方形,所以确定边界框的左上角的坐标以及长和宽四个参数即可。所以也可以将定位看成是给定一个图像,找出这四个参数的回归问题。
如上图所示,在一个卷积网络之后分别连接两个全连接层,一个用于分类,一个用于定位。
两种回归,一种是无论图像是什么类别,定位部分的网络都有相同的结构和参数来得到边界,这种叫不定类回归。另一种为定类回归,即输出是C乘四个边界参数,即每一类别都有一种边界框。
在哪个位置进行回归?两种方法,第一种在最后一个卷积层后面加上回归网络,如VGG、OverFeat。第二种在全连接层之后。