我们引入两个参数来评价一个数据集的精确度;
AP:衡量的是学习出来的模型(数据集)在每个类型上的好坏
mAP:衡量的是学出的模型在所有类别上的好坏
input输入图片后进入backbone骨干网路(神经深度学习网络)
再进入neck多尺度神经网络
yolo会将特征图划分为s*s的格子 格子负责对落入其中的目标由神经卷积网络进行检测
yolov5不同于三四还有一点在于其GT可以跨层检测 匹配数范围可以是3-9个
数据集还有一个维度是深度(deep)
其表达方式为B*(5+C)
B为预测的边界框数量 C表示类别数 5表示的是一个坐标信息和一个目标性得分
class confidence score 是类别置信度得分 测量分类和定位的置信度。
在实时测试时没有GT框,多个预测框比较之间的iou值 称作nms
使用torch.cuda.amp模块中的autocast类。当进入autocast的上下文后,可支持AMP的CUDA ops 会把tenso的dtype转换为半精度浮点型,从而在不损失训练精度的情况下加快运算。刚进入autocast的上下文时,tensor可以是任何类型,不需要在model或者input上手工调用.half(),框架会自动做,这也是自动混合精度中“自动'一词的由来。另外一点就是,autocast上下文应该只包含网络的前向过程(包括loss的计算),而不要包含反向传播,因为BP的op会使用和前向op相同的类型。