概括:
YOLO在设计中摒弃了采用先进行目标检测再进行目标识别的方法,而是利用回归通过神经网络进行一次的估计输出目标所在的bounding box(框)以及class(类别)。
统一检测:
()将输入图片进行划分,得到S*S个栅格
()每个栅格单元可以预测B个bounding box以及各个bounding box置信度P:
其中IOU为系统预测出的框与原来标出的框的重合程度:
()同时,每个栅格也用于计算C个关于类别的条件概率:
()输出结构为5个参数(x,y,width,height,P):
(x,y):栅格中心
(width,height):相对于整幅图片的宽度以及高度
(p):置信度
网络设计:
()采用了卷积神经网络,首个卷积层获取图片特征,全连接层预测输出结果
()共有24个卷积层和2个全连接层
训练:
()使用ImageNet数据对卷积层进行预训练
()图片大小448*448
()height以及width进行了归一化处理,取值范围在0-1
()x,y根据位于特定的边界框中偏移量进行参数化处理,取值范围在0-1
()采用了线性激活函数:
if x>0:
else:
()优化方法:最小误差和平方;同时由于图片的绝大部分不包含物体,因而需要区别有目标与无目标部分的参数