十二、AI学习笔记|物体探测(一)

目录

 

1、物体定位

2、关键点探测

3、滑动窗口弹测法

4、全连接层转卷积层

5、卷积化滑动窗口


1、物体定位

(1)几个术语

图像分类:给出一张图片,识别出图像中存在的物体叫做图片分类。

物体定位:不仅识别出里面的车,而且还知道车在哪个位置,叫做物体定位。

物体探测:将多种物体识别出来,并且将他们的位置定位出来,叫做物体探测。

(2)基本流程

图像输入之后,经过多层卷积网络,最后进入softmax层,得出4类标签(行人、汽车、摩托车,什么都没有)

在图像分类基础上,物体定位就是除了给出上述分类的标签之外,还给出物体的位置信息,位置信息一般用4 个值来表示,中心x、y坐标、宽、高,分别用来表示。

为了让神经网络输出这些信息,需要将 y 标签设置为如下格式:

y标签内变量的含义从上到下依次为:是否有物体、物体的x坐标、物体的y坐标、物体的宽、物体的高、行人的概率、汽车的概率、摩托车的概率。

(3)损失函数

拿平方误差损失函数举例

当图片中有物体的时候:

当图片中没有物体的时候:

2、关键点探测

比如定位眼睛的位置,可以让神经网络输出四个眼角的坐标

如果想要定位一个人的姿势,可以探测身体上的一些关键点来实现

3、滑动窗口弹测法

第一步构建一个可以识别车辆的CNN。

要求图片中的车辆尽量占满整个图片,即尽量减少其他信息对CNN识别车辆的准确率。

第二步用这个CNN在图片上进行滑动窗口探测。

使用窗口,先选择图片左上角的一部分,如下图,将这一小块带入到CNN中识别是否有车辆。

可以改变小窗口大小,识别不同大小的物体。

缺点

计算量很大

4、全连接层转卷积层

上面是一个简单卷积网络,后三层是全连接层,切后三层输出的激活值是400、400、4

可以将上面的最后三层的全连接层转换成卷积层

前面的卷积层不变,第一个FC层使用 (5x5x16)x400 的过滤器,得到1x1x400的矩阵。第二个FC层使用(1x1x400)x400的过滤器,得到1x1x400的矩阵。

优点

将全连接层卷计化,可以实现卷计化的滑动窗口探测。

可以减少滑动窗口计算量太大的问题。

5、卷积化滑动窗口

图中14x14x3的矩阵代表滑动窗口探测中的一个片段。上图中的矩阵深度依次是:3,16,16,400,400,4

卷积化的滑动窗口

假设图片大小为16x16,如下图所示,黄色表示原始图像,蓝色表示图片上的一个窗口。

如果滑动窗口的步长是2的话,那么图中就会有四个窗口。如果使用初始的滑动窗口方法需要重复执行四次卷积网络,而使用卷计化的滑动窗口,则只需要对整个网络执行一次卷积网络

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值