吴恩达深度学习课程笔记(四):卷积神经网络3 目标检测
3.1 目标定位(Object localization)
- 图像分类:
- 算法判断图像的内容是不是汽车。
- 目标定位:
- 算法判断图像是不是汽车,同时在图像中标记出车的位置。
- 目标检测:
- 图像中存在多个对象,算法检测出这些对象,并确定出位置。
目标定位:
符号约定:
- 图像左上角:(0,0)
- 图像右下角:(1,1)
- bx、by:目标的中心点坐标;
- bh、bw:目标的高度和宽度;
对目标定位任务,神经网络除了需要识别图像中的目标以外,还需要定位,所以神经网络的输出除了对图像的分类,还有图像的位置参数 dx、dy、dh、dw d x 、 d y 、 d h 、 d w 。
位置参数的理想值:
dx=0.5、dy=0.7、dh=0.3、dw=0.4 d x = 0.5 、 d y = 0.7 、 d h = 0.3 、 d w = 0.4
标签的定义:
网络现在有8个参数:
- 四个位置参数 dx、dy、dh、dw d x 、 d y 、 d h 、 d w ;
- 四个分类参数:行人、车、摩托、背景;
那么,标签 y y 的第一个参数 表示:是否存在目标。
可以将 pc p c 理解为被检测图像属于某一分类的概率(分类1:存在目标,分类2,不存在目标)。
- 如果不存在目标,其他参数毫无意义。如果存在目标,再看其他参数。
损失函数:
损失函数分为存在目标和不存在目标两种情况。
因为在不存在目标时,其他七个参数没有意义。只需要考虑 pc p c 的准确度。
上图中,采用平方误差来说明损失函数在不同情况下的区别之处。
实际上,可以不用对softmax层输出的 c1、c2、c3 c 1 、 c 2 、 c 3 使用对数似然损失函数。通常做法是对坐标 dx、dy