Ng深度学习笔记-卷积神经网络-目标检测

本文详细介绍了卷积神经网络在目标检测中的应用,包括目标定位、特征点检测、滑动窗口的卷积实现、bounding box预测、交并比、非极大值抑制等关键技术。特别是,文章讨论了如何通过卷积网络改进滑动窗口算法,以及YOLO算法的原理和优势,如使用Anchor Boxes来检测多个目标。最后,文章对比了不同的区域提议方法,如R-CNN、Fast R-CNN和Faster R-CNN,强调了YOLO在效率上的提升。
摘要由CSDN通过智能技术生成

目标定位

符号表示:
图片左上角的坐标为 ( 0 , 0 ) (0,0) (0,0),右下角标记为 ( 1 , 1 ) (1,1) (1,1)
红色方框的中心点( b x b_{x} bx, b y b_{y} by),边界框的高度为 b h b_{h} bh,宽度为 b w b_{w} bw

因此训练集不仅包含神经网络要预测的对象分类标签,还要包含表示边界框的这四个数字,接着采用监督学习算法,输出一个分类标签,还有四个参数值,从而给出检测对象的边框位置。

在这里插入图片描述

如何为监督学习任务定义目标标签 y y y

这有四个分类,神经网络输出的是这四个数字和一个分类标签,或分类标签出现的概率。目标标签 y y y的定义如下: y =   [ p c b x b y b h b w c 1 c 2 c 3 ] y= \ \begin{bmatrix} p_{c} \\ b_{x} \\ b_{y} \\ b_{h} \\ b_{w} \\ c_{1} \\ c_{2}\\ c_{3} \end{bmatrix} y= pcbxbybhbwc1c2c3
第一个组件 p c p_{c} pc表示是否含有对象,如果对象属于前三类(行人、汽车、摩托车),则 p c = 1 p_{c}= 1 pc=1,如果是背景,则图片中没有要检测的对象, p c = 0 p_{c} =0 pc=0。我们可以这样理解 p c p_{c} pc,它表示被检测对象属于某一分类的概率,背景分类除外。

如果检测到对象,就输出被检测对象的边界框参数 b x b_{x}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值