目标检测-吴恩达

目标定位

在这里插入图片描述
在这里插入图片描述
我们可以使用一个向量来表示这个车再图像当中的位置,以及它的种类
比如上图:
我现在神经网络只能认出来四种东西:

  • 行人
  • 自行车
  • 其他东西我认为都是背景

y是一个向量,从上到下认识一下内部参数:
Pc —> 现在这个框框里面有没有东西? 有 ⇒ 1 没有 ⇒ 0
bx,by,bh,bw 用来标识一个框框,这个框框的中心位置&宽高可以唯一的标识一个物体
然后用one-hot编码来认定这个东西是什么
c1=0 因为 不是行人
c2=1 因为 是汽车
c3=0 因为 不是自行车

那么loss怎么计算呢?
分成两种情况: Pc =0 (判定当前图片当中没有目标,都是背景), Pc =1 (发现目标)

Pc =1时,loss计算如下图所示:
在这里插入图片描述
其中,y就是真值,是人工标注的。而y^是预测值,是模型生成的。

Pc =0时,loss计算如下图所示:
在这里插入图片描述
容易理解,因为除了**Pc**之外其他的数值没有意义

特征点检测

在这里插入图片描述
特征点 == 我想要的一些图片当中的关键点
比如说:我要获取到人的眼角、我要获取到人的躯干信息–>等同于我要获取到人体关节信息。
应用:抖音特效–>小黑换脸

目标检测

在这里插入图片描述

思路一、滑动窗口

在这里插入图片描述
计算成本问题。

思路二、在卷积上面用滑动窗口

用conv代替FC
在这里插入图片描述
缺点:框出来的东西不太准确

思路三、YOLO

在这里插入图片描述
yolo算法一开始会把图像分成若干个小格子(上面的这幅图使用的是33的)
每一个小格子都可以使用一个vector来表示其位置以及里面有什么东西。
针对上面的这样一个3
3的图,那么将这些个vector组装起来,变成一个338的矩阵,用来作为这个图像的标签。

在这里插入图片描述
这张图解释了,为什么分了格子之后,他那个框框还能够跨格子。
就是因为bx,by,bh,bw能够标识这个框框。 但是它是按照比例来的。
就是一个框框,它左上角的坐标是(0,0),右下角的坐标是(1,1)
拿右边的这个车子来举例,那么他的
bx = 0.4 by = 0.3
bh = 0.9 bw = 0.5 注意: bh和 bw是能够大于1的,所以他这个框框能够跨越多个框框的界限。

交并比

可以用来评价对象检测算法
一般约定 IoU>0.5就可以说检测正确。

NMS 非极大值抑制

用来确保算法对每个对象只检测一次。
为什么需要它?
在这里插入图片描述
在这里插入图片描述
按照上面的那种方式,就能生成好几个框框,但是这些个框框都指向了同一个目标,得删一删。
删的原则是什么呢?
比如我这里聚集了好几个框框,那么我这里有一个0.9,那周围和0.9框框IOU值高的框框都删掉了。
在这里插入图片描述
那要是 人、自行车、狗三者重叠到一起了,怎么搞呢?
anchor box.

Anchor Boxes

就是一个向量拉长一点,里面copy一份。
在这里插入图片描述
这种anchor box的形状需要人工来进行设置。
but yolo算法能够实现anchor box 的自动化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值