1、隐式编码学习:yolo是在整张图像上进行特征提取,所以能够学到目标和背景、目标和目标之间的关联程度,比起滑动窗口和region proposal会大大降低把背景当做目标的出错率;
2、通用领域的模型,泛化能力强;
3、对小目标识别性能差,准确率比两阶段网络低,但是速度快,可以达到实时(一般认为超过30FPS可以看作实时);
4、每个grid cell 网格只能预测一类目标;
5、平方和误差损失函数对分类问题不太适用,要加一个权重;增加包含目标的grid cell的权重,削减不包含目标的grid cell的权重;