【卷积神经网络】Lesson 3--目标检测

本文详细介绍了目标检测的概念和方法,包括目标定位、特征点检测、目标检测的步骤,如滑动窗口、YOLO算法、边界框预测、交并化和非极大值抑制等。此外,还探讨了RPN网络及其改进,如R-CNN、Fast R-CNN和Faster R-CNN。内容源自吴恩达的深度学习课程,适合对卷积神经网络感兴趣的读者学习。
摘要由CSDN通过智能技术生成

课程来源:吴恩达 深度学习课程 《卷积神经网络》
笔记整理:王小草
时间:2018年6月8日


1.目标定位Object localization

1.1 什么是目标定位

明确下目标定位与检测的定义。

识别一张图片的类型(比如猫狗分类)叫做图像分类image classification,比如下面这张图篇是分类到汽车:
image_1cfaljgdje3re0r139313771n0l9.png-56.8kB

不仅识别出图片的类型,还将目标物体的位置标出来叫做分类定位classification with localization
image_1cfallnr6plgoej1ln9rrl7b6m.png-59.7kB

检测出图片中所有目标物体中的位置叫做目标检测detection
比如给出一张交通图片,检测并标记出里面的车辆,行人,自行车,交通灯等等。(注意,detection与classification with localization的不同在于单张图片中有不同分类的对象)
image_1cfalmve4m281jd414pfk651ep313.png-62kB

本节要讲述的是以上第二种情况,即给图片分类,并定位和标记出出目标物体的位置

1.2 定位方法的介绍

标准的图像分类问题,假如如下输入一张图片,通过卷积神经网络卷啊卷,最后经过softmax层,分成4类:行人,汽车,摩托车,啥都没有
image_1cfamlq6ne351rmg1kqgd403sh1g.png-101.8kB

如果你还想定位图片中汽车的位置,该咋办呢?你可以让上面这个神经网络再多加几个输出,输出汽车的边框。
汽车的边框信息只需要4个数字来表示:b_x,b_y,b_h,b_w,分别表示边框的中心点的横坐、,纵坐标,边框的高,边框的宽。
image_1cfanahit179t122l1ve71obg2iv1t.png-143.3kB

因此在标注训练数据时,除了给出类别的标签,还要给出表示边框的4个数字。然后通过有监督的训练模型,输出一个分类标签和四个边框参数值。

1.3 符号约定

(1)定义标签y
y是8*1的向量(注意这里我们只限定讲解图像中只有一个目标物体的情况)。
image_1cfanjd6b1gonuv6177e192qpen2a.png-19kB
Pc表示概率:是否有目标物体,若有车辆,摩托车,行人目标物体,则Pc=1,若这三个都没有则Pc=0;
bx,by,bh,bw分别表示目标物体边框的中心点横纵坐标与高宽
c1,c2,c3分别表示当Pc=1时,图片属于车辆,摩托车,行人的类别的概率。

因此上面这个例子的标签y可以写成图左,而什么都没检测到可以写成图右。
image_1cfant39s1i44117i1ickehb1tve2n.png-113.7kB

(2)定义损失函数
分别将y向量中的8个元素写成y1,y2,…,y8,其中Pc=y1,以此类推。
对于单个样本的损失:
当y1=1时,就是这把个元素对应的平方差损失之和;
当y1=0时,就只是y1的平方差,后面7个元素都不用考虑
image_1cfao9bbnqu896eghaekqn3034.png-40.1kB

在实际中,也可以不这样定义,可以将y1的输出用逻辑回归的损失函数定义,bx,by,bh,bw的输出用平方差和来定义,而c1,c2,c3用softmax的Log损失来定义.

2.特征点检测Landmark detection

神经网络可以通过对特征点(x,y)的输出来识别目标特征。来举2个例子。

例子1:
假设要识别人脸左眼角的特征点,则只需要让神经网络的最后一层输出(Pc,lx,ly)3个值即可,Pc表示是否是人脸,lx,ly是人脸上眼角的坐标点。
image_1cfaphe3f1184sjn1ndpgb93gu3h.png-69.2kB

假设想定位两只眼睛的4个眼角的位置,那就将输出改为4组坐标对应的数字(l1_x,l1_y),…,(l4_x,l4_y)
image_1cfapm3711j1s12uvj02mqn7ib3u.png-69.4kB

假设想定位两只眼睛的一圈,则可能需要10几个特征点,同样࿰

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值