吴恩达卷积神经网络学习笔记（五）

最新推荐文章于 2024-07-28 15:37:27 发布

墨倾许

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量341

点赞数

分类专栏：吴恩达深度学习——卷积神经网学习笔记文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/qq_45498824/article/details/122849617

版权

吴恩达深度学习——卷积神经网学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

（三）目标检测

3.1 目标定位

(三）目标检测

3.1 目标定位

图片分类：就是算法遍历图片，判断其中的对象是不是汽车。

定位分类问题：不仅要判断其中的对象是不是汽车，还要在图中标记出它的位置。

其中定位是:判断汽车在图片中的具体位置。

当图片中有多个对象时，应该如何检测它们，并确定出位置。

比如你正在做一个自动驾驶程序，程序不仅要检测其他车辆，还要检测其他对象，如行人，摩托车等等。

对于分类定位问题，通常只有一个较大的物体在图片的中央，我们要对它进行识别和定位，而在对象检测问题中，图片可以含有多个对象，甚至单张图片中会有多个不同分类的对象，因此图片分类的思路可以帮助学习分类定位，而对定位的思路又有助于学习对象检测。

图片分类问题：

例如：输入一张图片到多层卷积神经网络，这就是卷积神经网络。它会输出一个特征向量，并反馈给softmax单元来预测图片类型。

如果你正在做汽车自动驾驶程序，那么对象可能包括以下几类：行人汽车摩托车和背景，即图片中不含有前三种对象，也就是说图中没有行人、汽车、摩托车，输出结果会是背景对象，这4个分类就是softmax函数可能输出的结果，这就是标准的分类pipeline。

具体如下图：

如果想定位图片中汽车的位置：可以让神经网络多输出几个单元，输出一个边界框，具体说就是让神经网络再多输出4个数字，标记为bx by bh和bw,这呃个数字是被检测对象的边界框的参数化表示。

图片左上角的坐标为（0，0），右下角标记为（1，1），要想确定边界框的具体位置，需要指定红色方框的中心点，我们通常要输出该物体的类别以及物体中心点的坐标和宽高。

（注：目标对象的坐标（bx、by）、目标对象的宽和高（bh、bw））

因此，训练集不仅包含神经网络要预测的对象分类标签，还包含表示边界框的这4个数字。接着采用监督学习算法，输出一个分类标签，还有这4个参数值，从而给出被检测对象的边界框位置。

此例中:bx=0.5是其理想数值，因为它表示汽车位于图片水平方向的中间位置；by=0.7，表示汽车位于距离图片底部3/10的位置；bh=0.3表示红色方框的高度是图片高度的0.3倍；bw=0.4，红色方框的宽度是图片宽度的0.4倍。

如何为监督学习任务定义目标标签y？

目标标签Y的定义：

它是一个向量，第一个组件pc表示是否含有对象，如果对象属于前三类，则Pc=1；如果是背景，则图片中没有要检测的对象，Pc=0.

（Pc：它表示被检测对象属于某一分类，背景分类除外。如果检测到对象，就输出被检测对象的边界框参数bx by bh bw，如果存在某个对象，那么Pc=1，同时输出c1、c2、c3，表示该对象属于1-3中的哪一类，是行人、汽车还是摩托车）

假设图片中只含有一个对象，针对这个分类定位问题，图片最多只会出现其中一个对象。假如这是一个训练集，标记为X，Y当中，第一个元素Pc＝１，因为图中有一辆车，bx by bh bw会指明边界框的位置,所以标签训练集需要标签的边界框;图片中是一辆车,所以结果属于分类2,因为定位目标不是行人或摩托车,而是汽车,所以c1=0,c2=1,c3=0,c1、c2、c3中最多只有一个等于1.这是图片中只有一个检测对象的情况.

如果图片中没有检测对象,雪地图片,这种情况下Pc=0,Y的其它参数将变得毫无意义,图片中不存在对象参数,所以不用考虑输出中边界框的大小,也不用考虑图片中的对象是否是属于c1、c2、c3中的哪一类.

针对给定的被标记的训练样本,不论图片中是否含有定位对象,构建输入图片X和分类标签Y的具体过程都是如此，这些数据最终定义了训练集．

训练神经网络的损失函数:L(Y^,Y),其参数为类别Y和网络输出Y^.

如果采用平方误差策略,

L(Y^,Y)=(Y1^-Y1)2+(Y2^-Y2)2+...

损失值是(Y1^-Y1)的平方,损失值是(Y1^-Y1)的平方,对于这种情况,我们不用考虑其他元素,只需关注神经网络输出Pc的准确度.若Y1=0，仅第一项的误差平方和作为损失函数。

这里使用误差平方和是为了简便，也可分别使用误差平方和，对数损失函数等。

B站视频来源：【中英字幕】吴恩达深度学习课程第四课 — 卷积神经网络_哔哩哔哩_bilibili

墨倾许

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
吴恩达卷积神经网络学习笔记（五）

目录（三）目标检测3.1 目标定位(三）目标检测3.1 目标定位图片分类：就是算法遍历图片，判断其中的对象是不是汽车。定位分类问题：不仅要判断其中的对象是不是汽车，还要在图中标记出它的位置。其中定位是:判断汽车在图片中的具体位置。当图片中有多个对象时，应该如何检测它们，并确定出位置。比如你正在做一个自动驾驶程序，程序不仅要检测其他车辆，还要检测其他对象，如行人，摩托车等等。对于分类定位问题，通常只有一个较大的物体在图片的中央，我们要对它进行识别和定...
复制链接

扫一扫

专栏目录