目录
1、物体定位
(1)几个术语
图像分类:给出一张图片,识别出图像中存在的物体叫做图片分类。
物体定位:不仅识别出里面的车,而且还知道车在哪个位置,叫做物体定位。
物体探测:将多种物体识别出来,并且将他们的位置定位出来,叫做物体探测。
(2)基本流程
图像输入之后,经过多层卷积网络,最后进入softmax层,得出4类标签(行人、汽车、摩托车,什么都没有)

在图像分类基础上,物体定位就是除了给出上述分类的标签之外,还给出物体的位置信息,位置信息一般用4 个值来表示,中心x、y坐标、宽、高,分别用
来表示。


为了让神经网络输出这些信息,需要将 y 标签设置为如下格式:

y标签内变量的含义从上到下依次为:是否有物体、物体的x坐标、物体的y坐标、物体的宽、物体的高、行人的概率、汽车的概率、摩托车的概率。
(3)损失函数
拿平方误差损失函数举例
当图片中有物体的时候:

当图片中没有物体的时候:

2、关键点探测
比如定位眼睛的位置,可以让神经网络输出四个眼角的坐标

如果想要定位一个人的姿势,可以探测身体上的一些关键点来实现

3、滑动窗口弹测法
第一步构建一个可以识别车辆的CNN。
要求图片中的车辆尽量占满整个图片,即尽量减少其他信息对CNN识别车辆的准确率。
第二步用这个CNN在图片上进行滑动窗口探测。
使用窗口,先选择图片左上角的一部分,如下图,将这一小块带入到CNN中识别是否有车辆。

可以改变小窗口大小,识别不同大小的物体。
缺点
计算量很大
4、全连接层转卷积层

上面是一个简单卷积网络,后三层是全连接层,切后三层输出的激活值是400、400、4
可以将上面的最后三层的全连接层转换成卷积层

前面的卷积层不变,第一个FC层使用 (5x5x16)x400 的过滤器,得到1x1x400的矩阵。第二个FC层使用(1x1x400)x400的过滤器,得到1x1x400的矩阵。
优点
将全连接层卷计化,可以实现卷计化的滑动窗口探测。
可以减少滑动窗口计算量太大的问题。
5、卷积化滑动窗口

图中14x14x3的矩阵代表滑动窗口探测中的一个片段。上图中的矩阵深度依次是:3,16,16,400,400,4
卷积化的滑动窗口
假设图片大小为16x16,如下图所示,黄色表示原始图像,蓝色表示图片上的一个窗口。

如果滑动窗口的步长是2的话,那么图中就会有四个窗口。如果使用初始的滑动窗口方法需要重复执行四次卷积网络,而使用卷计化的滑动窗口,则只需要对整个网络执行一次卷积网络


754

被折叠的 条评论
为什么被折叠?



