YOLO吴恩达(0706)

1.classification with localization(定位分类)
图像识别只是可以将图片中的物体进行分类,而目标识别是在可以分类的基础上,对物体进行定位。
2.图像分类:图片进入卷积神经网络,输出一组特征向量,并反馈给softmax单元来预测图片类型
一、只考虑图片中包含一个对象
1.训练集的制作
以自动驾驶为例,需要将图片分为四类:行人、汽车、摩托车、背景(不含上面三类)。这是softmax输出的四种结果。
图1
如果想要进一步确定图中车的位置,就需要神经网络多输出几个单元,确定一个边界框(bx,by,bh.bw),bx、by指图片中心点的位置,bh、bw为边框的高和宽。在一个图片中,左上角为(0,0),右下角为(1,1)
对于神经网络的训练集来说,输入不仅要包含种类,还有可以确定边界框的四个数字。
对于目标标签Y,是一个1*8的向量。pc
表示是否有检测对象,有前三类对象,为1,检测背景,为0;bx,by,bh.bw为对象的边框数据;c1,c2,c3为类别,例如图片中检测为只有汽车,则输出(0,1,0)。对于上面照片,如果作为训练图片,图片为X输入,标签Y为 Y = [ 1 b x b y b h b w 0 1 0 ] Y=\left[\begin{array}{l} 1 \\ b_{x} \\ b_{y} \\ b_{h} \\ b_{w} \\ 0 \\ 1 \\ 0 \end{array}\right] Y=1bxbybhbw010
如果图片如在这里插入图片描述那么pc=0,后面的参数将毫无意义,也就不需要关心它是什么了。
对于只有单目标的目标识别,训练集就是这样制作的,对应每一个图片X,都有目标标签Y,Y中包含了我们所需要的元素。
2.损失函数
给定标签为Y,预测标签为 Y ^ \hat{\mathrm{Y}} Y^,那么损失函数可定义为 L ( Y ^ , Y ) \mathrm{L}(\hat{\mathrm{Y}}, \mathrm{Y}) L(Y^,Y).如果采用平方误差法 L ( Y ^ , Y ) = ( y ^ 1 − y 1 ) 2 + ( y ^ 2 − y 2 ) 2 + ⋯ + ( y ^ 8 − y 8 ) 2 \mathrm{L}(\hat{\mathrm{Y}}, \mathrm{Y})=\left(\hat{y}_{1}-y_{1}\right)^{2}+\left(\hat{y}_{2}-y_{2}\right)^{2}+\cdots+\left(\hat{y}_{8}-y_{8}\right)^{2} L(Y^,Y)=(y^1y1)2+(y^2y2)2++(y^8y8)2,y1=1. L ( Y ^ , Y ) = ( y ^ 1 − y 1 ) 2 \mathrm{L}(\hat{\mathrm{Y}}, \mathrm{Y})=\left(\hat{y}_{1}-y_{1}\right)^{2} L(Y^,Y)=(y^1y1)2,y1=0.也就是当图像中有类别时,损失函数是所有值的平方差和,如果只是背景,损失函数就是pc的平方差和。
实际中,通常是只对描述边框的四个数据进行平方差求和或其他方法,对C1,C2,C3和softmax的输出不做平方差求和处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值