YOLOv1
是最经典的one-stage模型,就是找到x,y,w,h四个坐标,所以一个CNN网络就可以解决了
YOLO比cnn,虽然Map值不是很高但FPS更高更灵活
具体思路就是,
有这样的整体架构,在其中呢,只能输入448*448*3然后经过卷积网络形成7*7*30
这个7*7代表的是输出的结果,30表示的是每一个格子代表的值。这个确定的点的位置是由30里面前10个位置确定的5+5表示的是X1Y1W1H1C1,X2Y2W2H2C2表示的就是经由损失值函数计算过后的最有可能的两个矩形来确定的点
缺点很明显,如果框内是两个很近的不同的物品无法检测,如果是同一个物品的不同品种无法检测,