吴恩达卷积神经网络学习笔记(五)

目录

(三)目标检测

3.1 目标定位


(三)目标检测

3.1 目标定位

        图片分类:就是算法遍历图片,判断其中的对象是不是汽车。

定位分类问题:不仅要判断其中的对象是不是汽车,还要在图中标记出它的位置。

其中定位是:判断汽车在图片中的具体位置。

当图片中有多个对象时,应该如何检测它们,并确定出位置。

比如你正在做一个自动驾驶程序,程序不仅要检测其他车辆,还要检测其他对象,如行人,摩托车等等。

对于分类定位问题,通常只有一个较大的物体在图片的中央,我们要对它进行识别和定位,而在对象检测问题中,图片可以含有多个对象,甚至单张图片中会有多个不同分类的对象,因此图片分类的思路可以帮助学习分类定位,而对定位的思路又有助于学习对象检测。

图片分类问题:

 例如:输入一张图片到多层卷积神经网络,这就是卷积神经网络。它会输出一个特征向量,并反馈给softmax单元来预测图片类型。

如果你正在做汽车自动驾驶程序,那么对象可能包括以下几类:行人 汽车 摩托车和背景 ,即图片中不含有前三种对象,也就是说图中没有行人、汽车、摩托车,输出结果会是背景对象,这4个分类就是softmax函数可能输出的结果,这就是标准的分类pipeline。

具体如下图:

 如果想定位图片中汽车的位置:可以让神经网络多输出几个单元,输出一个边界框,具体说就是让神经网络再多输出4个数字,标记为bx by bh和bw,这呃个数字是被检测对象的边界框的参数化表示。

图片左上角的坐标为(0,0),右下角标记为(1,1),要想确定边界框的具体位置,需要指定红色方框的中心点,我们通常要输出该物体的类别以及物体中心点的坐标和宽高。

注:目标对象的坐标(bx、by)、目标对象的宽和高(bh、bw))

 因此,训练集不仅包含神经网络要预测的对象分类标签,还包含表示边界框的这4个数字。接着采用监督学习算法,输出一个分类标签,还有这4个参数值,从而给出被检测对象的边界框位置。

此例中:bx=0.5是其理想数值,因为它表示汽车位于图片水平方向的中间位置;by=0.7,表示汽车位于距离图片底部3/10的位置;bh=0.3表示红色方框的高度是图片高度的0.3倍;bw=0.4,红色方框的宽度是图片宽度的0.4倍。

 如何为监督学习任务定义目标标签y?

 目标标签Y的定义:

        它是一个向量,第一个组件pc表示是否含有对象,如果对象属于前三类,则Pc=1;如果是背景,则图片中没有要检测的对象,Pc=0.

(Pc:它表示被检测对象属于某一分类,背景分类除外。如果检测到对象,就输出被检测对象的边界框参数bx by bh bw,如果存在某个对象,那么Pc=1,同时输出c1、c2、c3,表示该对象属于1-3中的哪一类,是行人、汽车还是摩托车)

 假设图片中只含有一个对象,针对这个分类定位问题,图片最多只会出现其中一个对象。假如这是一个训练集,标记为X,Y当中,第一个元素Pc=1,因为图中有一辆车,bx by bh bw会指明边界框的位置,所以标签训练集需要标签的边界框;图片中是一辆车,所以结果属于分类2,因为定位目标不是行人或摩托车,而是汽车,所以c1=0,c2=1,c3=0,c1、c2、c3中最多只有一个等于1.这是图片中只有一个检测对象的情况.

如果图片中没有检测对象,雪地图片,这种情况下Pc=0,Y的其它参数将变得毫无意义,图片中不存在对象参数,所以不用考虑输出中边界框的大小,也不用考虑图片中的对象是否是属于c1、c2、c3中的哪一类.

 针对给定的被标记的训练样本,不论图片中是否含有定位对象,构建输入图片X和分类标签Y的具体过程都是如此,这些数据最终定义了训练集.

训练神经网络的损失函数:L(Y^,Y),其参数为类别Y和网络输出Y^.

如果采用平方误差策略,

        L(Y^,Y)=(Y1^-Y1)2+(Y2^-Y2)2+...

损失值是(Y1^-Y1)的平方,损失值是(Y1^-Y1)的平方,对于这种情况,我们不用考虑其他元素,只需关注神经网络输出Pc的准确度.若Y1=0,仅第一项的误差平方和作为损失函数。

        这里使用误差平方和是为了简便,也可分别使用误差平方和,对数损失函数等。

B站视频来源:【中英字幕】吴恩达深度学习课程第四课 — 卷积神经网络_哔哩哔哩_bilibili

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值