数据扩充
垂直镜像对称(mirroring on the vertical axis)
随机裁剪(Random Cropping)
色彩转换
目标定位(Object Localization)
图片分类:算法遍历判断其中的对象是不是汽车。
定位分类:不仅需要判断出物体,还需要在图片中标记出它的位置。
图片分类问题:输入一张图片到多层卷积神经网络后输出一个特征向量,并反馈给
s
o
f
t
m
a
x
softmax
softmax单元来预测图片类型(例如:汽车、人、背景等)。
定位分类问题:则要在此基础上输出一个边界框,其信息为
b
x
b_x
bx、
b
y
b_y
by(边框中心点坐标)、
b
h
b_h
bh(边框高度)、
b
w
b_w
bw(边框宽度)。
特征点检测
批量添加输出单元,用以输出要识别的各个特征点的(X,Y)坐标值
目标检测
基于滑动窗口的目标检测算法
首先创建一个标签训练集(X,Y),然后将其输入到卷积神经网络中,输出0(无汽车)或1(有汽车),训练完这个卷积网络后,利用滑动窗口来目标检测,思路如下:以固定步幅度滑动窗口,遍历图像的每个区域,把这些剪切后的小图像输入卷积网络,对每个位置按0或1进行分类。
卷积的滑动窗口实现
将全连接层转换为卷积层,转换的卷积层=滑动窗口 + 全连接的作用,一次性所有滑动窗口进行计算得出输出结果。
Bounding Box预测
YOLO(you only look once):你只看一次。
对于训练集图像中的每个对象,根据对象中点位置来分配到对应的格子中。
IoU衡量两个边界框重叠的相对大小。
非极大抑制
在对物体检查时,一个物体对应很多方格时,会对物体输出许多预测框。此时选取那个有效的框就显得很关键了。首先选择概率预测最大的框,非极大抑制就会审视剩下的矩形框,最大的边界框分别于周围的框有高度重叠的就舍去。只输出概率最大的框。
Anchor Boxes
锚框是为了处理两个对象出现在同一个格子的情况,选取与锚框交并比高的边界框,能够较好的输出预测框。
候选区域
R-CNN算法:带区域的卷积网络。
Fast R-CNN算法:采用滑动窗口进行卷积计算。
在少数窗口上运行卷积网络分类器,选出候选区域的方法是运行图像分割算法,分割算法中得到相应的色块,并在其色块上放置边界框后跑分类器。