Batch Normalization
主要作用:减轻过拟合、增加模型泛化性、可以不使用dropout
γ和β是BN层的可学习参数,μ和σ都是总体的无偏估计
如上,对所有样本求标准化,每一行标准化
高分辨分类器
采用448*448的图像输入
因为在小分辨率的主干网络迁移学习到YOLO上效果不好
基于锚框的卷积
recall和precision是分类器性能指标,其他指标还有混淆矩阵和roc曲线
V2给五
个框,只需预测偏移量,谁和真实框的IOU大谁就预测
补充,cell应该选奇数个长宽,如左图
V2 划分了13*13的grid cell,每个cell产生5个anchor。每个Box产生4+1+20=25个数
v1一个gridcell只能预测一个类别物体,v2一个girdcell可以预测五种 ,v1是选择bbox与真实框IOU最大的框,直接预测框的坐标。
c是类别数,k是每个gridcell的锚框数
聚类
在fast-rcnn SSD中,锚框数/gridcell和长宽比,size是手动选择的,而V2是聚类选取
思想是对数据集的各个真实框的xywh聚类,并根据聚类中心个数选取相应的锚框坐标,为了权衡模型性能,选择5个聚类中心,赋予锚框初始值
合理的预测
咱就是说,预测框不能全图乱跑,xy用sigmoid函数限制,wh不用,因为可能真实物体很大
前面的pr是:模型是否存在物体,to是 confidence,需要向左边学习,靠近
损失函数
其中λ是给定的参数
细粒度特征 Fine-Grained Features
左边进来的是浅层网络的feature map
上面和下面的长条concat,下面的四个长条先concat
多尺度训练 multi-scale training
使用不同的size 训练
不适用FC,使用全局平均池化层可以不用调整输入大小,灵活调整输入大小
综合表现
Faster!
V1使用Vgg太慢了
换了新网络,DarkNet
左边是分类的,右边是检测的
Stronger
作者使用两个数据集
分层softmax