一 目标定位
计算机视觉的应用如今非常丰富,上周已经学习了图片分类问题,在此基础上进行目标定位的学习,甚至应用到目标检测(多物体)。通常图片左上角坐标(0,0),右下角坐标(1,1),红色方框的中心点坐标(bx,by),边框高度bh ,宽度bw。神经网络不仅需要输出标签,还需要输出四个参数值。
当检测到图片中存在1,2,3情况时,pc=1 4表示无背景,pc=0,相应的损失函数如上所示。
二 特征点检测
三 目标检测
滑动窗口目标检测 采用较小的步幅和细粒度,检测成本较高。采用较大的步幅和细粒度检测不准确。
通过对结构进行改进,将全连接层变成卷积层,可以提高效率。
但是仍然存在不能得到精确边界框的问题。
YOLO算法
将输入图片用网格分割,每个小方格采用分类与定位技术,以33网格为例,得到九个向量,对于识别到物体的中点进行特征点提取并分配到中点所在的方格中。一个输入x,得到输出y 33*8,该算法可以达到实时性识别
四 交并比
计算两个边界框交集和并集的比值,(lou)
五 非极大值抑制
存在的问题是算法对某个对象检测出多次,采用非极大值抑制的方法。
六 anchor boxes
当出现多个检测框,先找到最大的一个并高亮,非极大值抑制就会将该检测框邻近的检测框输出减弱,也就是变暗,最终去掉暗的检测框得到最后结果。新的问题出现了,到目前为止,每个格子只能检测一个对象,因此当两个对象在同一个格子里出现需要改进。
七 yolo算法
1 训练数据
2 做出预测
3 非极大值抑制
八 候选区域 R-CNN
运行图像分割算法先选出候选区域(带有色块的区域),在候选区域进行目标检测,减少卷积算法运行的时间。