Yolo中文意思是You only look once.意思就是只需要看一次就可以识别出图中的这个物体。
Yolo是单阶段的,不同于之前的双阶段的RCNN、Fast-RCNN。
一.框架
Input:输入448✖448✖3的图片。
经过GoogLeNet(20layers)(在ImageNet上面训练分为1000个类),
5个卷积层和池化层,
2个线性回归层(预测分类输出)。
二.损失函数
S^2为n✖n的方格图,B为Anchor Box的数目(Yolov1为2),obj代表有物体的地方,nobj代表没有物体的地方。
1.是预测x,y的值和真实x,y的值之差的平方(预测值与真实值的距离)。预测框和真实框开根之差的平方。(为什么不直接求距离?大框和小框对Loss的影响不同,开个根使得小框的影响更大)
2.求置信度IOU误差。
3.求分类误差。