看了很多网上的关于YOLO的教程,发现大家都是相互抄袭,并没有很详细的讲解其中的算法,所以我结合网上的和自己的理解对其进行全网最详细讲解。
一、YOLO:YOLO: Unified, Real-Time Object Detection
YOLO作者将物体检测作为回归问题求解,基于一个简单的end-to-end网络设计,和rcnn系列的区别主要如下:
1、YOLO训练和检测均是在一个单独的网络中进行,但是yolo没有rpn等层;
2、YOLO将物体检测作为一个回归问题来解决,输入一张图经过inference便能得到物体的位置和其所属的类别及其相应的置信度。
如下图所示:
1.1、YOLO的结构
YOLO检测网络包含24个卷积层(用来提取特征)和2个全联接层(用来预测图像位置和类类别置信度),并且使用了大量的1x1的卷积用来降低上一层的layer到下一层的特征空间。并且在paper中,作者还给出了fast-YOLO的构架,即:9个卷积层和2个全连接层。使用titan x GPU,fast YOLO可以达到155fps的检测速度,但是mAP值也从YOLO的63.4%降到了52.7%,但却仍然远高于以往的实时物体检测方法(DPM)的mAP值。
YOLO将输入图像分成SxS个格子,每个格子负责检测‘落入’该格子的物体。若某个物体的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。如下图所示,图中物体狗的中心点(红色原点)落入第5行、第2列的格子内,所以这个格子负责预测图像中的物体狗。
其中,每个格子输出B个bounding box(包含物体的矩形区域),每个box的置信度,以及C个物体属于某个类别的概率信息。每个bounding box包含五个数据,分别为:x,y,w,h,confidence。其中x,y是指当前格子预测得到的物体的bounding box的中心位置的坐标。w,h是bounding box的宽度和高度。注意:实际训练过程中,w和h的值使用图像的宽度和高度进行归一化到[0,1]区间内;x,y是bounding box中心位置相对于当前格子位置的偏移值,并且被归一化到[0,1]。
confidence反映当前bounding box是否包含物体以及物体位置的准确性,计算方式如下:
confidence = Pr(object)* IOU, 即置信度=包含物体的概率(0或1)乘以IOU。其中,若bounding box包含物体,则P(object) = 1;否则P(object) = 0。IOU(intersection over union)为预测bounding box与物体真实区域的交集面积(以像素为单位,用真实区域的像素面积归一化到[0,1]区间)。
所以,预测结果是一个 S x S x (B*5 + C)大小的tensor。对于paper中,作者选取的S=7,B=2,C=20,所以输出的维度为7
*7*(20+2*5)=1470,所以这也解释了为什么在网络代码中fc26的channel为1470维度。
网络输出的详细的解读如下:
448的图片经过google的inception的思想后加几层卷积(有更好的效果)。如上图所示物体的中心落在红色的grid里面,所以Pr=1。
对于输出的20个类的置信度如下:
每个grid其实都会有两个bbox,但是每个grid只会预测一个类别,所以其实每个grid的bbox都是属于同一个类别的。
所以:其实网络的output如下:
1.2 YOLO的缺点:
a、由于YOLO中采用了全联接层,所以需要在检测时,读入测试的图像的大小必须和训练集的图像尺寸相同;
b、对小物体检测不敏感。因为虽然每个cell都可以预测出B个bounding box,但是在最终只选择IOU最高的bounding box作为物体检测输出,即:每个cell只能预测出一个物体。当物体较小时,所占画面比例较小,比如图像中包含牲畜群的时候,每个格子kennel包含多个物体,但是最后只能检测出其中的一个。
c、YOLO方法模型训练依赖于物体识别标注数据,因此,对于非常规的物体形状或比例,YOLO的检测效果并不理想。
d、YOLO采用了多个下采样层,网络学到的物体特征并不精细,因此也会影响检测效果。
e、YOLO loss函数中,大物体IOU误差和小物体IOU误差对网络训练中loss贡献值接近(虽然采用求平方根方式,但没有根本解决问题)。因此,对于小物体,小的IOU误差也会对网络优化过程造成很大的影响,从而降低了物体检测的定位准确性。
1.3 Training过程
作者采用ImageNet上1000类作为预训练前20层的卷积层,然后接一个average-pooling层和全联接层。对于检测而言,我们希望图片更加的精细,所以我们也是将224*224改成448*448大小。
最后一层预测出类别的置信度和bounding box的左边,并且我们对bounding box的width 和height都根据图片的宽和高做了归一化。
激活函数方面:使用linear activation function作为最后一层的激活函数,对于其他层我们使用leaky rectified linear activation,即:
对于优化函数方面选择sum-squared error均方和误差,因为它比较容易优化。见原文:
网络输出的S*S*(B*5 + C)维向量与真实图像的对应S*S*(B*5 + C)维向量的均方和误差。如下式所示。其中,、iouError和classError分别代表预测数据与标定数据之间的坐标误差、IOU误差和分类误差。即:
但作者对上面的loss做了相应的优化,如下:
1、位置相关误差(坐标、IOU)与分类误差对网络loss的贡献值是不同的,因此YOLO在计算loss时,使用修正。
2、在计算IOU误差时,包含物体的格子与不包含物体的格子,二者的IOU误差对网络loss的贡献值是不同的。若采用相同的权值,那么不包含物体的格子的confidence值近似为0,变相放大了包含物体的格子的confidence误差在计算网络参数梯度时的影响。为解决这个问题,YOLO 使用修正。(注此处的‘包含’是指存在一个物体,它的中心坐标落入到格子内)。
3、对于相等的误差值,大物体误差对检测的影响应小于小物体误差对检测的影响。这是因为,相同的位置偏差占大物体的比例远小于同等偏差占小物体的比例。YOLO将物体大小的信息项(w和h)进行求平方根来改进这个问题。(注:这个方法并不能完全解决这个问题)。
综上,YOLO在训练过程中Loss计算如下式所示:
其中,为网络预测值,帽 为标注值。表示物体落入格子i中,和分别表示物体落入与未落入格子i的第j个bounding box内。
1、4 YOLO优点
- a、快。YOLO将物体检测作为回归问题进行求解,整个检测网络pipeline简单。在titan x GPU上,在保证检测准确率的前提下(63.4% mAP,VOC 2007 test set),可以达到45fps的检测速度。
- b、背景误检率低。YOLO在训练和推理过程中能‘看到’整张图像的整体信息,而基于region proposal的物体检测方法(如rcnn/fast rcnn),在检测过程中,只‘看到’候选框内的局部图像信息。因此,若当图像背景(非物体)中的部分数据被包含在候选框中送入检测网络进行检测时,容易被误检测成物体。测试证明,YOLO对于背景图像的误检率低于fast rcnn误检率的一半。
- c、通用性强。YOLO对于艺术类作品中的物体检测同样适用。它对非自然图像物体的检测率远远高于DPM和RCNN系列检测方法。
但相比RCNN系列物体检测方法,YOLO具有以下缺点:
- 识别物体位置精准性差。
- 召回率低。
所以为提高物体定位精准性和召回率,YOLO作者提出了YOLO9000,提高训练图像的分辨率,引入了faster rcnn中anchor box的思想,对各网络结构及各层的设计进行了改进,输出层使用卷积层替代YOLO的全连接层,联合使用coco物体检测标注数据和imagenet物体分类标注数据训练物体检测模型。相比YOLO,YOLO9000在识别种类、精度、速度、和定位准确性等方面都有大大提升。