1、卷积神经网络的评价指标
混淆矩阵:
计算:
Precision/Recall曲线也叫做P-R曲线,其代表的是精准率(查准率)与召回率(查全率)的关系,Precision与Recall是一对矛盾的变量。如下图所示:
调整阈值可改变准确率或召回值。
PR曲线下的面积就定义为AP,由于计算积分相对困难,因此引入插值法,计算AP公式如下:
2、目标检测与Yolo
2.1 分类问题与目标检测
目标检测问题:目标检测是在给定的图片中精确找到物体所在位置,并标注出物体的类别。 物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图 片的任何地方,并且物体还可以是多个类别。
分类:是否有目标?有什么目标:c1,c2,c3
数据集输出表达:
2.2 目标检测基本思想
Yolo将特征图划分为S×S的格子(grid cells),每个格子负责对落入其中的目标进行检测,一次性预测所有各自所含目标的边界框、定位置信度、以及所有类别概率向量。
经过卷积网络在特征图上划分S×S的网格,通过网格的划分得到边界框(bounding box)和置信度得分(confidence)以及类别的概率图(class probability map),结合两者得到最终检测结果
从图像的特征图出发,得到物体检测出的属性(attributes),即边界框的坐标(box co-ordinates)、目标性得分(objectness score)、分类的得分。
置信度:
比如下面的例子,A是向日葵类对应的所有候选框中概率最大的区域,B是另一个区域,计算AB的IoU,其结果大于阈值,那么就认为AB属于同一类(即都是向日葵),所以应该保留A,删除B,这就是非极大值抑制。
目标检测:RCNN、Fast RCNN、 Faster RCNN 基本思想和网络结构介绍-CSDN博客
训练数据与网络输出:
2.3 损失函数
YOLO损失函数:
2.4 Yolov5
3、语意分割与FCN
3.1基本思想
语义分割是对图像中的每个像素加标签的一个过程,这一过程使得具有相同标签的像素具有某种共同视觉特性。对图中每一个像素进行分类,得到对应标签:
基于传统的CNN的分割方法:为了对一个像素分类,使用该像素周围的一个图像块作为CNN的输入,用于训练与预测,这种方法主要有几个缺点:
存储开销大:比如对每一个像素使用15 * 15的图像块,然后不断滑动窗口,将图像块输入到CNN中进行类别判断,因此,需要的存储空间随滑动窗口的次数和大小急剧上升。
效率低下:相邻像素块基本上是重复的,针对每个像素块逐个计算卷积,这种计算有很大程度上的重复。
像素块的大小限制了感受区域的大小,通常像素块的大小比整幅图像的大小小很多,只能提取一些局部特征,从而导致分类性能收到限制。
而全卷积网络(FCN)则是从抽象的特征中恢复出每个像素所属类别。即从图像级别的分类进一步延伸到像素级别的分类。针对语意分割训练一个端到端,点对点的网络,达到了state-of-the-art。
3.2 FCN
FCN提出可以把后面几个全连接层都换成卷积层(卷积化),这样就可以获得一张2维的feature map,后接softmax层获得每个像素点的分类信息,从而解决分割问题。如下图所示:
实战: